AlphaGoなどで使われた「試行錯誤を通じて最適な戦略を学ぶ」機械学習の分野はどれか。

2026年3月12日

強強化学習は環境からの報酬を最大化するようにエージェントが自律的に行動を最適化する。

モデルの出力を制御するために「ランダム性」を調整するパラメータを何と呼ぶか。

マルチモーダルAIができることとして正しいものはどれか。