HOMELv077 強化学習において;エージェントが「現実世界で失敗する」のを防ぐため、まず「オフラインの固定データ」だけで学習させる手法を何というか。 2026年1月25日 追加の試行錯誤を行わず、既存のログデータから最適な方策を見つけ出す。 LLMのAPIコストを最適化するために;「簡単な質問」には高速で安価なモデルを使い、「難しい質問」には高性能なモデルを使う切り替え機能を何というか。 ニューラルネットワークが学習データ(サンプル数 $n$)よりも圧倒的に多いパラメータ(数 $p$)を持つ際、なぜ過学習せずに精度が上がるのかを説明する仮説はどれか。