このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・クリエイティブ 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、自然言語処理分野のトップカンファレンス「ACL 2025」にて5本の論文採択

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」におけるリサーチインターンシップ参加者の市原有生希氏※1および堤歩斗氏※2ならびに研究員の陣内佑、本多右京、村上聡一朗らによる論文が自然言語処理分野の国際会議「ACL 2025(The 63rd Annual Meeting of the Association for Computational Linguistics)、以下ACL」※3の本会議に3本、Findingsに2本採択されたことをお知らせいたします。なお当社において、ACLでの論文採択は2年連続となります。

「ACL」は自然言語処理分野(NLP)で最も権威ある国際会議のひとつです。
このたび採択された論文は、2025年7月27日から8月1日にかけてオーストリアのウィーンで開催される「ACL 2025」での発表を予定しています。

■背景

近年、インターネット広告市場の急速な成長に伴い、広告効果を最大化するためのAI技術を活用したクリエイティブ制作や運用の効率化が注目されています。「AI Lab」では、クリエイティブ領域における様々な技術課題に対して、大学や学術機関との産学連携を強化し、幅広いAI技術の研究・開発に注力しています。

なかでも、自然言語処理分野の研究チームでは、「広告テキストの自動生成」や「広告表現の理解」の基礎研究に取り組むとともに、当社が提供するAIで効果の出せる広告テキストを予測・自動生成する「極予測TD」への技術・知見導入を通じた社会実装に取り組んでいます。また、強化学習チームの研究テーマであるRLHF※4 などを通じて連携を強めており、領域横断での研究も進めています。

※4 Reinforcement Learning from Human Feedback、人間のフィードバックを用いた強化学習によってパフォーマンスを最適化するための機械学習手法。

■論文の概要

●本会議
Theoretical Guarantees for Minimum Bayes Risk Decoding
著者:市原有生希 (奈良先端科学技術大学院大学)・陣内佑・蟻生開人・森村哲郎 (サイバーエージェント AI Lab)・内部英治 (国際電気通信基礎技術研究所)
大規模言語モデルから文章を生成する方法として、Minimum Bayes Risk (MBR) Decodingという手法が有効であることが実験的に知られています。しかしながらそれがなぜ効果的な手法なのかということは明らかになっていませんでした。本研究ではMBR Decodingの解析を行い、その理論的な性能保証を明らかにしました。また、条件下で他の手法(ランダムサンプリング)よりも高い精度が期待できることを示し、MBR Decodingが優れた手法であることの理論的背景を説明しました。


Document-Level Text Generation with Minimum Bayes Risk Decoding using Optimal Transport
著者:陣内佑 (サイバーエージェント AI Lab) 
Minimum Bayes Risk (MBR) Decodingは「2つの文章の類似度を推定する」ことによって品質の高い文章を生成する手法です。文章の類似度の推定は短い文章に対しては簡単ですが、長い文章間の類似度の推定は難しいことが知られています。そのため、MBR Decodingで長い文章を生成しようとするとその精度が落ちてしまうという傾向が見られました。本研究では最適輸送のモデルを用い、「2つの短い文章の類似度を推定する」ことを繰り返すことで、「2つの長い文章の類似度を推定する」手法をMBR Decodingに導入しました。これにより高品質な長文生成が可能になりました。


Exploring Explanations Improves the Robustness of In-Context Learning
著者:本多右京 (サイバーエージェント AI Lab)・岡達志 (慶應義塾大学)
大規模言語モデルを用いて特定のタスクに取り組む際には、いくつかの例を参考に予測させる方法(文脈内学習)がよく使われます。しかし例と異なるパターンでは予測を誤る傾向があり、予測の信頼性に問題がありました。本研究では、提示する例に複数の観点から説明を加えることで、言語モデルが予測の根拠を幅広く考えるように促します。これにより、提示した例と大きく異なる事例についても安定して正しく予測できるようになることが確認されました。本研究の成果によって、例の選定や改良にかかる手間が減り、大規模言語モデルの活用がより容易になることが期待されます。



●Findings
Do Large Language Models Know Folktales? A Case Study of Yokai in Japanese Folktales
著者:堤歩斗 (東京都立大学)・陣内佑 (サイバーエージェント AI Lab)
「大規模言語モデルはどのくらい日本のことを知っているのか?」
という問いから、日本の妖怪に関する知識を問うデータセットを作成しました。

妖怪は日本の文化や歴史を象徴する存在であり、多くの芸術やエンターテインメント作品にも登場します。妖怪に関する知識は自然科学的な知識だけでは十分に推測できず、日本語以外で学習することも困難です。さらに、妖怪に特化して学習された言語モデルはほとんど存在しないと考えられるため、日本文化への理解度を測る指標として適しています。

結果として、英語・中国語を中心として学習を行ったのちに日本語で微調整を行ったモデルよりも、事前学習から日本語で学習を行ったモデルの方が妖怪に関する知識が豊富であることが分かりました。
この結果から、日本語での学習データや事前学習が十分に行われているモデルほど、日本独自の文化や知識も深く理解できることが示唆されました。


AdParaphrase v2.0: Generating Attractive Ad Texts Using a Preference-Annotated Paraphrase Dataset
著者:村上聡一朗・張培楠 (サイバーエージェント AI Lab)・上垣外英剛 (奈良先端科学技術大学/東京科学大学)・高村大也 (東京科学大学)・奥村学 (東京科学大学)
本研究では人々が魅力的と感じる広告表現を明らかにすることを目的とし、選好評価データ付き広告文言い換えデータセット「AdParaphrase v2.0」を提案しました。本データセットは、NAACL 2025で発表した前バージョン「AdParaphrase」の後継となります。

AdParaphrase v2.0は言い回しが異なる広告文の言い換えペアから構成され、各ペアには複数の評価者の好みを反映した選好評価データが付与されています。本バージョンでは、データセットの規模を従来版の20倍となる16,460ペアに大幅拡充しました。これにより、より信頼性が高く、多様な言語表現を対象とした分析が可能となりました。

実験では、広告文の言語的特徴量と選好評価データの関係を分析し、従来版では観察されなかった、魅力的な広告文の特徴を明らかにしました。さらに、これらの知見や提案データセットを活用し、魅力的な広告文を生成するための複数手法を比較評価しました。

データセット: https://huggingface.co/datasets/cyberagent/AdParaphrase-v2.0

■今後

これらの研究の成果は、当社で取り組む極シリーズにおける「広告テキストの自動生成技術」や審査AIでの「広告クリエイティブの自動審査」、また日本語に特化した大規模言語モデル(LLM)である「CyberAgentLM」の技術開発および精度向上に寄与することが期待されます。今後も「AI Lab」ではより効果の高い広告制作と運用を目指し、高精度なLLMの開発に向けて領域を超えた研究開発を進めてまいります。



※1 奈良先端科学技術大学院大学所属 2024/04/01よりリサーチインターンシップに参加
※2 東京都立大学所属 2024/11/14よりリサーチインターンシップに参加
※3 The 63rd Annual Meeting of the Association for Computational Linguistics (ACL 2025)