ニューラルネットワークの「情報の圧縮」を数学的に解析する際;入力 $X$ と出力 $Y$ の間の「相互情報量」を最大化しつつ;中間層 $Z$ の情報量を最小化する考え方を何というか。

学習の本質が「予測に不要な情報の削除」にあることを説明する理論。