プレスリリース
AI Lab、自然言語処理分野のトップカンファレンス「NAACL 2024」にて論文採択
―テキスト生成における高性能探索アルゴリズムを分析―
株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」におけるリサーチインターンシップ参加者の大橋厚元氏※1ならびに研究員の本多右京・森村哲郎・陣内佑らによる論文が、自然言語処理分野の国際会議「NAACL 2024」※2の本会議に採択されたことをお知らせいたします。
「NAACL」は世界中の研究者によって定期開催される国際会議で、「ACL」「EMNLP」※3と並び、自然言語処理分野(NLP)でもっとも権威ある国際会議のひとつです。このたび採択された本論文は、2024年6月にメキシコ・メキシコシティで開催される「NAACL 2024」での発表を予定しています。
「NAACL」は世界中の研究者によって定期開催される国際会議で、「ACL」「EMNLP」※3と並び、自然言語処理分野(NLP)でもっとも権威ある国際会議のひとつです。このたび採択された本論文は、2024年6月にメキシコ・メキシコシティで開催される「NAACL 2024」での発表を予定しています。
■背景
近年、インターネット広告市場の急速な成長に伴い、広告効果※4を最大化することを目的とした、AI技術を活用したクリエイティブ制作や運用の効率化が注目されています。「AI Lab」では、クリエイティブ領域における様々な技術課題に対して、大学・学術機関との産学連携を強化しながら幅広いAI技術の研究・開発に注力しています。
なかでも、自然言語処理分野と強化学習分野の研究チームでは、当社の開発する「極予測TD」の効果向上など、より高品質な広告テキストの制作に向けた、テキスト生成の自動生成技術や分析手法に関する研究に取り組んでいます。
なかでも、自然言語処理分野と強化学習分野の研究チームでは、当社の開発する「極予測TD」の効果向上など、より高品質な広告テキストの制作に向けた、テキスト生成の自動生成技術や分析手法に関する研究に取り組んでいます。
■論文の概要
この度採択された「On the True Distribution Approximation of Minimum Bayes-Risk Decoding」は、テキスト生成での探索アルゴリズムとして注目を集めているMinimum Bayes-Risk (以下、MBR) decodingについて、実証的にその有効性の説明を図ったものです。
近年、大規模言語モデル(LLM)など強力なテキスト生成モデルの開発が進む一方、これらのテキスト生成モデルからテキストを生成する際には、適切なテキストを得るための探索アルゴリズムが必要となります。この探索アルゴリズムとして顕著な有効性を示しているのが、MBR decodingです。これまで既存研究においてサンプリング手法によってMBR decoingの性能が異なることが報告されていましたが、サンプルのどのような性質が性能に関連するのかについては不明確であり、様々な仮説が考えられてきました。
本研究では、MBR decodingがサンプルに対して置く重要な仮定に注目し、この仮定の充足と性能の高さが関連することを実証的に示しています。また、詳細な実験によって既存の仮説では相関が顕著に低くなることも示しており、今後のMBR decoding改善の方向を修正する貢献となっています。
近年、大規模言語モデル(LLM)など強力なテキスト生成モデルの開発が進む一方、これらのテキスト生成モデルからテキストを生成する際には、適切なテキストを得るための探索アルゴリズムが必要となります。この探索アルゴリズムとして顕著な有効性を示しているのが、MBR decodingです。これまで既存研究においてサンプリング手法によってMBR decoingの性能が異なることが報告されていましたが、サンプルのどのような性質が性能に関連するのかについては不明確であり、様々な仮説が考えられてきました。
本研究では、MBR decodingがサンプルに対して置く重要な仮定に注目し、この仮定の充足と性能の高さが関連することを実証的に示しています。また、詳細な実験によって既存の仮説では相関が顕著に低くなることも示しており、今後のMBR decoding改善の方向を修正する貢献となっています。
■今後
本研究の成果は、MBR decodingのさらなる改善と、極予測TDをはじめとした「極予測シリーズ」への広告テキストの自動生成技術の活用が期待されます。今後も「AI Lab」ではより効果の高い広告制作と運用を目指し、研究・開発に努めてまいります。
※1 名古屋大学所属・2023/08/01よりリサーチインターンシップに参加
※2「NAACL」The Annual Conference of the North American Chapter of the Association for Computational Linguistics
※3「ACL」The Annual Meeting of the Association for Computational Linguistics
「EMNLP」The Conference on Empirical Methods in Natural Language Processing
※4 広告効果とは、配信結果から得られるその広告の良さを測る指標の総称で、一般的には表示回数やクリック率、コンバージョン率、消化予算などを指すことが多い。
※1 名古屋大学所属・2023/08/01よりリサーチインターンシップに参加
※2「NAACL」The Annual Conference of the North American Chapter of the Association for Computational Linguistics
※3「ACL」The Annual Meeting of the Association for Computational Linguistics
「EMNLP」The Conference on Empirical Methods in Natural Language Processing
※4 広告効果とは、配信結果から得られるその広告の良さを測る指標の総称で、一般的には表示回数やクリック率、コンバージョン率、消化予算などを指すことが多い。