強化学習における「報酬（Reward）」の設計において、最終的なゴールだけでなく途中の望ましい行動にも小さな報酬を与える手法はどれか。

2026年3月11日

報酬整形を行うことで、エージェントが疎な報酬（稀にしか得られないゴール報酬）を学習しやすくなります。

BigQueryの「サーチインデックス（Search Index）」を作成することで高速化が期待できるクエリの種類はどれか。

Cloud Speech-to-Text APIで、複数の話者が交互に話している内容を分離して認識する機能を何と呼ぶか。