HOMELv004 強化学習において、エージェントが環境から受け取るフィードバックを何と呼ぶか。 2026年3月3日 エージェントは累積の報酬を最大化するように行動(アクション)を学習する。 次元削減手法の1つである「t-SNE」がPCAと比較して優れている点はどれか。 SageMakerのトレーニングジョブで「Pipeモード」を使用する利点はどれか。