強化学習において；エージェントが「現実世界で失敗する」のを防ぐため、まず「オフラインの固定データ」だけで学習させる手法を何というか。

2026年1月25日

追加の試行錯誤を行わず、既存のログデータから最適な方策を見つけ出す。

LLMのAPIコストを最適化するために；「簡単な質問」には高速で安価なモデルを使い、「難しい質問」には高性能なモデルを使う切り替え機能を何というか。

ニューラルネットワークが学習データ（サンプル数 $n$）よりも圧倒的に多いパラメータ（数 $p$）を持つ際、なぜ過学習せずに精度が上がるのかを説明する仮説はどれか。