HOMELv018 AlphaGoなどで使われた「試行錯誤を通じて最適な戦略を学ぶ」機械学習の分野はどれか。 2026年3月12日 強強化学習は環境からの報酬を最大化するようにエージェントが自律的に行動を最適化する。 モデルの出力を制御するために「ランダム性」を調整するパラメータを何と呼ぶか。 マルチモーダルAIができることとして正しいものはどれか。