HOMELv028 強化学習の基本的なアルゴリズムで、各状態においてどのアクションをとると将来の報酬が最大化されるかを推定するテーブル(Qテーブル)を更新する手法はどれか。 2026年3月3日 Q学習は、TD誤差(Temporal Difference error)を用いてQ値を逐次的に更新し、最適な方策を獲得する手法。 Amazon Kinesis Data Firehoseにおいて、ストリーミングデータ内の特定のフィールド(例:customer_id)の値に基づいてS3の出力パスを動的に変更する機能を何と呼ぶか。 Amazon SageMaker Debuggerにおいて、一般的な問題(勾配消失、過学習など)を検知するために事前に用意されている指標の集まりを何と呼ぶか。