プレスリリース
AI Lab、機械学習分野の国際論文誌「Transactions on Machine Learning Research」にて主著論文採択
―カーネル求積で強化学習の効率化を実現するアプローチを提案 ―
株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」における「AI Lab リサーチインターンシップ」参加者の早川知志氏※1および研究員の森村哲郎らによる主著論文が、機械学習分野の国際論文誌「Transactions on Machine Learning Research (以下、TMLR)」にて採択されたことをお知らせいたします。
「TMLR」は機械学習分野における国際論文誌であり、その品質と影響力は業界内で高く評価されています。また査読時からのオープンアクセスの方針により、最新の研究成果が広く共有され、機械学習の最新の研究成果やトレンドを追跡するための重要な情報源となっています。
※1 オックスフォード大学所属(採択当時)・2022/09/28~2024/2/29まで「AI Lab リサーチインターンシップ」に参加
「TMLR」は機械学習分野における国際論文誌であり、その品質と影響力は業界内で高く評価されています。また査読時からのオープンアクセスの方針により、最新の研究成果が広く共有され、機械学習の最新の研究成果やトレンドを追跡するための重要な情報源となっています。
※1 オックスフォード大学所属(採択当時)・2022/09/28~2024/2/29まで「AI Lab リサーチインターンシップ」に参加
■背景
「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取り組んでいます。なかでも強化学習チームは、理論的な研究から実世界の問題解決に至るまで、意思決定戦略の学習に幅広く取り組んでいます。この技術は、ユーザーに合わせた広告の選択や広告文の生成など当社が提供する「極予測」シリーズ※2に代表される具体的なビジネス課題に応用されており、企業がデータに基づく意思決定をするといったビジネス上の課題に対処する際の新たな可能性を探求しています。
■論文の概要
強化学習(Reinforcement Learning:以下、RL)は使用するアプリケーションによって、物理シミュレーションや人間による評価など、報酬※3の評価の計算コストが高いことが課題となっています。特にRLHFやRLAIFのような人間のフィードバックを活用する場合や、材料科学や流体力学においてはこのコストは顕著であり、報酬の評価回数を抑える必要があります。
この度採択された「Policy Gradient with Kernel Quadrature」では、RLの計算量を減らすことを目的に、報酬評価の回数を抑える新しいアプローチを提案しました。
我々はカーネル求積(Kernel Quadrature:以下、 KQ)という数学的手法を応用し、ガウス過程モデリングを利用して報酬計算に必要なエピソードの選択の効率化を検討しました。方策勾配法という大規模言語モデル(以下、LLM)からロボットの学習まで広く用いられている強化学習法にKQを適用し、RLタスクにおける計算負荷の軽減を実現し、同時に高い学習効率を維持することを可能にしました。これにより、高コストの報酬評価を必要とするRLの実用性向上が期待できます。
■今後
本研究の成果は当社の開発するCyberAgentLMをはじめとしたLLMなど、生成AIをより使いやすくするための活用等が期待されます。今後も「AI Lab」では、より賢い意思決定のための技術の研究を進め、強化学習の実用化と進展に貢献していきます。
※2 「極予測AI」「極予測TD」「極予測LP」をはじめとした、効果の高いインターネット広告クリエイティブのAIによる効果予測および生成AIを活用した広告素材の自動生成などのクリエイティブ制作支援サービス
※3 学習中のエージェント(学習モデル)が取るべき望ましい行動を指示する指標であり、強化学習はこれを最大化する行動モデルを見つけます。
「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取り組んでいます。なかでも強化学習チームは、理論的な研究から実世界の問題解決に至るまで、意思決定戦略の学習に幅広く取り組んでいます。この技術は、ユーザーに合わせた広告の選択や広告文の生成など当社が提供する「極予測」シリーズ※2に代表される具体的なビジネス課題に応用されており、企業がデータに基づく意思決定をするといったビジネス上の課題に対処する際の新たな可能性を探求しています。
■論文の概要
強化学習(Reinforcement Learning:以下、RL)は使用するアプリケーションによって、物理シミュレーションや人間による評価など、報酬※3の評価の計算コストが高いことが課題となっています。特にRLHFやRLAIFのような人間のフィードバックを活用する場合や、材料科学や流体力学においてはこのコストは顕著であり、報酬の評価回数を抑える必要があります。
この度採択された「Policy Gradient with Kernel Quadrature」では、RLの計算量を減らすことを目的に、報酬評価の回数を抑える新しいアプローチを提案しました。
我々はカーネル求積(Kernel Quadrature:以下、 KQ)という数学的手法を応用し、ガウス過程モデリングを利用して報酬計算に必要なエピソードの選択の効率化を検討しました。方策勾配法という大規模言語モデル(以下、LLM)からロボットの学習まで広く用いられている強化学習法にKQを適用し、RLタスクにおける計算負荷の軽減を実現し、同時に高い学習効率を維持することを可能にしました。これにより、高コストの報酬評価を必要とするRLの実用性向上が期待できます。
■今後
本研究の成果は当社の開発するCyberAgentLMをはじめとしたLLMなど、生成AIをより使いやすくするための活用等が期待されます。今後も「AI Lab」では、より賢い意思決定のための技術の研究を進め、強化学習の実用化と進展に貢献していきます。
※2 「極予測AI」「極予測TD」「極予測LP」をはじめとした、効果の高いインターネット広告クリエイティブのAIによる効果予測および生成AIを活用した広告素材の自動生成などのクリエイティブ制作支援サービス
※3 学習中のエージェント(学習モデル)が取るべき望ましい行動を指示する指標であり、強化学習はこれを最大化する行動モデルを見つけます。