HOMELv032 報酬が「成功(1)」か「失敗(0)」しかなく;途中のプロセスが評価されない過酷な報酬環境を何と呼ぶか。 2026年1月25日 この環境での学習は非常に困難であり;工夫が必要となる。 AIに「人を傷つける方法」を教えないように;倫理的なガイドラインを学習させるプロセスを何というか。 LLMに「あなたはプロの編集者です」といった役割を与えることで;回答の質やトーンを調整する手法を何というか。