このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・デザイン 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、自然言語処理分野のトップカンファレンス「ACL 2024」にて3本の論文採択

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の三田雅人および陣内佑らによる論文が自然言語処理分野の国際会議「ACL 2024(The 62nd Annual Meeting of the Association for Computational Linguistics)」※1の本会議に1本、Findings※2に2本採択されたことをお知らせいたします。なお当社において、「ACL」本会議での論文採択は初となります。

「ACL」は自然言語処理分野(NLP)で最も権威ある国際会議のひとつです。
このたび採択された論文は、2024年8月にタイのバンコクで開催される「ACL 2024」での発表を予定しています。

■背景

近年、インターネット広告市場の急速な成長に伴い、広告効果を最大化するためのAI技術を活用したクリエイティブ制作や運用の効率化が注目されています。「AI Lab」では、クリエイティブ領域における様々な技術課題に対して、大学や学術機関との産学連携を強化し、幅広いAI技術の研究・開発に注力しています。

なかでも、自然言語処理分野の研究チームでは、「広告テキストの自動生成」や「広告表現の理解」の基礎研究に取り組むとともに、当社が提供するAIで効果の出せる広告テキストを予測・自動生成する「極予測TD」への技術・知見導入を通じた社会実装に取り組んでいます。また、強化学習チームの研究テーマであるRLHF※3 などを通じて連携を強めており、領域横断での研究も進めています。

※3 Reinforcement Learning from Human Feedback、人間のフィードバックを用いた強化学習によってパフォーマンスを最適化するための機械学習手法。

■論文の概要

●本会議

Striking Gold in Advertising: Standardization and Exploration of Ad Text Generation
著者:三田雅人・村上聡一朗・加藤明彦・張培楠(サイバーエージェント AI Lab)
手動での広告作成の限界に対処するため、広告テキストの自動生成(Ad Text Generation、以下ATG)に関する研究が進められています。しかし、研究間で問題設定が共有されておらず、オープンで包括的なベンチマークデータが欠如しているため、研究横断的な定量評価をするのが難しいという課題があります。こうした課題に対処するため、私たちはATGのタスクを標準化し、CAMERAという初のベンチマークデータセットを提案しました。
さらに、伝統的な方法から最新の大規模言語モデル(LLMs)までの幅広い9つのベースラインを用いた実験により、現在の到達点および残された課題を明らかにしました。

<論文リンク>
https://arxiv.org/abs/2309.12030



●Findings

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding
著者:陣内佑・本多右京・森村哲郎・張培楠(サイバーエージェント AI Lab)
Minimum Bayes Risk Decoding(MBR)は、テキスト生成モデルから品質の高いテキストを生成する手法です。しかしながら、MBRは複数のテキストを生成する場合、多様性を欠いた重複の多いテキストを生成してしまうという問題があります。本研究ではMBRを発展させ、品質が高いだけではなく、多様性に富んだ複数のテキストを生成する手法を提案しました。また、提案手法の応用として、Reinforcement Learning from Human Feedback(RLHF)のための多様で高品質なフィードバックデータセットを生成する方法を開発中です。

<論文リンク>
https://arxiv.org/abs/2401.05054



Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding
著者:陣内佑・蟻生開人(サイバーエージェント AI Lab)
MBRは一般的なテキスト生成手法(ビームサーチ等)と比較すると計算時間が非常に長いという欠点があります。本研究では、MBRにて取り扱う最適化問題が、点集合からのメドイド(代表点)の発見問題に帰着できることを発見しました。この発見を元に、多腕バンディット問題の最適腕識別手法を適用することで、計算時間を大幅に削減する手法を提案しました。

<論文リンク>
https://arxiv.org/abs/2401.02749

■今後

これらの研究の成果は、当社が提供するAIを用いて効果的な広告テキストを予測・自動生成する「極予測TD」への活用や日本語に特化した大規模言語モデル(LLM)である「CyberAgentLM」の技術開発および精度向上に寄与することが期待されます。今後も「AI Lab」ではより効果の高い広告制作と運用を目指し、高精度なLLMの開発に向けて領域を超えた研究開発を進めてまいります。



※1 The 62nd Annual Meeting of the Association for Computational Linguistics (ACL 2024)
※2 https://2020.emnlp.org/blog/2020-04-19-findings-of-emnlp