LLMに「自分の考えを一度下書きさせ、その下書きに対して自分でツッコミを入れさせてから最終回答を出させる」という高度なプロンプト手法を何というか。

2026年1月25日

自己批判を通じて論理的なミスを修正し；回答の質を飛躍的に高める。

強化学習において；エージェントが「直接的な報酬（エサ）」だけでなく；「将来的に有利な状態（安全な場所など）」を学習するために、状態そのものに価値をつける関数はどれか。

ニューラルネットワークの「結合の強さ（重み）」を、特定の数学的な規則（例：物理法則）に従うように制限をかけて学習させる手法を何というか。