HOMELv006 エージェントが未知の行動を試す「探索」と;過去の経験から高い報酬を得る「利用」のバランスを何というか。 2026年1月25日 強化学習における重要な戦略的課題である。 文章を単語に区切る際;「すもももももももものうち」を意味のある最小単位に分ける処理はどれか。 出力が0から1の範囲に収まるため;2値分類の確率表現によく用いられる活性化関数はどれか。