LLMの性能を維持したまま、推論時の計算負荷が高い「Softmax」計算を避けるために提案されている手法はどれか。

2026年1月25日

カーネル法や線形代数の性質を利用し；長いシーケンスに対する計算を効率化する。

強化学習において；エージェントが「過去のデータ」から学ぶだけでなく、「シミュレータ内の想像（夢）」で学習を進めるアーキテクチャはどれか。

ニューラルネットワークが学習データ（サンプル数N）に対して、パラメータ数（P）がNよりはるかに多い時に見られる、二重降下現象の「第2の降下」が起きる領域を何というか。