HOME
Lv045

「Lv045」の記事一覧

RLHF（Reinforcement Learning from Human Feedback）において、報酬モデル（Reward Model）は何を学習するか。

同じプロンプトに対する複数の回答ペアについて、人間がどちらが良いかを判定したデータを用い、その選好…

2026年3月13日

LLMのファインチューニング手法「LoRA」において、学習対象となる行列のランク（階数）はどう設定されるか。

パラメータ更新量を低ランク行列の積（A×B）で近似することで、学習すべきパラメータ数を劇的に削減する。

2026年3月13日

「Neural Tangent Kernel (NTK)」理論が扱うニューラルネットワークの設定はどれか。

無限幅のネットワークは、学習中に重みがほとんど変化せず、カーネル回帰として振る舞うという理論的枠組…

2026年3月13日

強化学習における「World Models」のアプローチの特徴はどれか。

環境のダイナミクスを学習したモデル（世界モデル）内でエージェントを訓練することで、実環境での試行回…

2026年3月13日

「二重降下（Double Descent）」現象において、テスト誤差が再び下がり始めるのはいつか。

モデルの容量が補間閾値（データ数と一致する点）を超えると、過学習が悪化する代わりに、滑らかな関数を…

2026年3月13日

敵対的攻撃「FGSM」が、画像に加えるノイズを作成するために使う情報はどれか。

損失を増大させる方向（勾配の方向）へ、人間には気付かない程度の微小な変化（epsilon * sign(gradient)…

2026年3月13日

「Masked Autoencoder (MAE)」がBERTと異なる点として、画像処理特有のアプローチはどれか。

計算効率を上げるため、エンコーダには可視パッチのみを入力し、軽量なデコーダでマスク・トークンと組み…

2026年3月13日

モデルの枝刈り（Pruning）において、「Unstructured Pruning」とはどういう操作か。

構造を気にせず個別の重みを0にするため、圧縮率は高くなるが、専用ハードウェアでないと高速化の恩恵を受…

2026年3月13日

量子化（Quantization）における「キャリブレーション」とは何の工程か。

INT8などに変換する際、値の最小値・最大値をどこに設定するかを決めるために、少量のデータを通して分布…

2026年3月13日

NeRF（Neural Radiance Fields）が3次元形状を表現するために用いる手法はどれか。

空間内の任意の点における密度と色をニューラルネットで推定し、視線に沿って積分（レンダリング）するこ…

2026年3月13日