HOMELv020 人間にとって望ましい回答をするように、人間のフィードバックを用いて学習する手法はどれか。 2026年4月27日 Reinforcement Learning from Human Feedbackの略で、AIの振る舞いを調整する。 y = x^2 – 1 と y = 0 で囲まれた図形を x 軸のまわりに 1回転 させた立体の体積はいくらか。 (-8) – (-5) の計算結果として正しいものはどれか。