強化学習において、エージェントが環境から受け取るフィードバックを何と呼ぶか。

2026年3月3日

エージェントは累積の報酬を最大化するように行動（アクション）を学習する。

次元削減手法の1つである「t-SNE」がPCAと比較して優れている点はどれか。

SageMakerのトレーニングジョブで「Pipeモード」を使用する利点はどれか。