Q学習において；将来の最大報酬を過大評価しやすい問題を解決するために提案された手法はどれか。

2026年1月25日

アクションの選択と評価を別々のネットワークで行う。

画像とテキストを共通のベクトル空間に投影し；相互の関連性を学習したOpenAIのモデルはどれか。

2023年に広島G7サミットで発足した；生成AIに関する国際的なルール作りを目指す枠組みはどれか。