強化学習において；エージェントが「1つのニューラルネットワーク」で、環境の「価値」と「次の状態」と「報酬」をすべて予測しながら学習する手法はどれか。

2026年1月25日

環境の具体的なルールを知らなくても、頭の中で「世界」を構築して学習する。

LLMアプリケーションにおいて；「入力と出力の両方」をリアルタイムで監視し、著作権侵害や機密情報漏洩が発生していないかをチェックする専用のフィルタを何というか。

Transformerの「アテンション計算量（シーケンス長の2乗）」を解決するため；過去の情報を「状態ベクトル」として一定サイズで維持する、RNNとCNNを融合させたようなアーキテクチャを何というか。