HOMELv022 行動の結果として得られる「報酬」を最大化するように試行錯誤を繰り返す学習手法はどれか。 2026年3月13日 エージェントが環境から得られるスコアを最大にするための戦略を自律的に学習する。 AIが人間と同等、あるいはそれ以上の幅広い認知能力や知能を持つ仮想的な概念はどれか。 データの分布が中央の平均値付近にどれだけ集中しているか(尖り具合)を示す統計量はどれか。