HOMELv034 強化学習における「報酬仮説」の内容はどれか。 2026年3月13日 Suttonらが提唱した、知的な行動の目的はすべて報酬信号の最大化という形で定式化できるという仮説。 TransformerのPositional Encodingにおいて、位置情報の計算に使われる関数はどれか。 オートエンコーダの損失関数として一般的に使われるのは何か。