強化学習における「Q学習」において、将来得られる報酬の期待値を更新する際に使用される方程式はどれか。

2026年3月11日

ベルマン方程式は現在の状態の価値を、即時報酬と次状態の最大期待価値の和として定義します。

Vertex AI Feature Storeで、過去のある時点における特徴量の状態を正確に取得する操作はどれか。

Vertex AI Custom Trainingにおいて、複数のハイパーパラメータの組み合わせを並列に実行する機能を何と呼ぶか。