LLMの性能評価において；単なる単語の一致率（BLEUなど）ではなく；「意味的な整合性」を別のAIが評価する指標を何というか。

2026年1月25日

人間の評価基準に近い形で；より高度な生成能力を測定する。

強化学習において；エージェントが「過去に一度も見たことがない状態」に遭遇した際に；その新奇性を評価して報酬を与える仕組みを何というか。

ニューラルネットワークの学習において；全ての層を一気に学習させるのではなく；下の層から順番に学習させて積み上げていく手法を何というか。