報酬の期待値が最大となるように行動を選択する際；ある行動をとった後の価値を関数として表現したものを何というか。

2026年1月25日

状態価値関数や行動価値関数（Q関数）がある。

検定において；「本来は差がないのに、差があると判断してしまう」誤りを何というか。

生成AIにおいて；テキストから画像への変換（Text-to-Image）を可能にするために用いられる共通空間学習のモデルはどれか。