人間にとって望ましい回答をするように、人間のフィードバックを用いて学習する手法はどれか。

2026年4月27日

Reinforcement Learning from Human Feedbackの略で、AIの振る舞いを調整する。

y = x^2 – 1 と y = 0 で囲まれた図形を x 軸のまわりに 1回転させた立体の体積はいくらか。

(-8) – (-5) の計算結果として正しいものはどれか。