強化学習において；「実環境での試行錯誤」のコストが高すぎる場合に；過去のログデータのみから学習する手法を何というか。

2026年1月25日

追加のデータ収集を行わず；既存のデータベースから最適な方策を導き出す。

LLMアプリケーションにおいて；「入力されたプロンプト」をベクトル化し；最も似ている「過去の成功例」をプロンプトに挿入する手法を何というか。

Transformerの各層で実行される「層正規化（Layer Norm）」において；平均値を引かずに分散（RMS）のみで正規化し計算を効率化する手法はどれか。