強化学習において；エージェントが「1つのネットワーク」で；環境の価値と報酬をすべて予測しながら学習する手法はどれか。

2026年1月25日

環境の具体的なルールを知らなくても；頭の中に世界を構築して学習できる。

LLMアプリケーションにおいて；「入力と出力の両方」をリアルタイムで監視し；機密情報漏洩が発生していないかをチェックするフィルタを何というか。

Transformerの「計算量（シーケンス長の2乗）」を解決するため；過去の情報を「状態ベクトル」として維持する次世代アーキテクチャはどれか。