HOMELv056 LLMのトークナイザーにおいて;単語を構成する「バイト(Byte)」レベルで処理を行い、未知語を完全に無くす手法はどれか。 2026年1月25日 GPT-2以降のモデルで採用されており;あらゆるテキストを処理可能にする。 エージェントが報酬を最大化するために;「今の状態からゴールまで」を予測するのではなく、「ゴールから逆向きに」考える手法を何というか。 Transformerの各層において;「残差接続(Skip Connection)」を通る前に正規化を行うか、後に正規化を行うかの違いを何というか。