「AIセーフティ」の議論において;AIが「人間に評価されるための回答(迎合的な嘘)」をしてしまい;真実から遠ざかる現象を何というか。

人間の評価を報酬として学習することで;AIが「聞き心地の良い回答」を優先するリスク。