プレスリリース

AI Lab、計算言語学・自然言語処理分野に関する主要ジャーナル「Transactions of the Association for Computational Linguistics」にて論文採択

―短絡的な予測への依存を抑制する手法を提案―

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の本多右京・張培楠・三田雅人ならびに慶應義塾大学の岡達志教授らによる主著論文が計算言語学・自然言語処理分野に関する主要ジャーナル「Transactions of the Association for Computational Linguistics (以下、TACL)」※1に採択されたことをお知らせいたします。

「TACL」は計算言語学・自然言語処理分野でもっとも権威ある論文誌のひとつであり、採択された論文は「ACL」などの両分野における最難関国際会議で発表することができます。なお、当社として「TACL」での論文採択は初となります。

■背景

近年、インターネット広告市場の急速な成長に伴い、広告効果を最大化するためのAI技術を活用したクリエイティブ制作や運用の効率化が注目されています。「AI Lab」では、クリエイティブ領域における様々な技術課題に対して、大学・学術機関との産学連携を強化しながら幅広いAI技術の研究・開発に注力しています。

なかでも、自然言語処理分野の研究チームでは、当社の開発する「極予測TD」をはじめとしたサービスの効果向上を目指し、より高品質な広告テキストの制作に向けた、テキストの自動生成技術や分析手法に関する研究に取り組んでいます。
また、「AI Lab」経済学チームの研究テーマである因果推論※2などを通じて連携し、異なる分野の研究者が一緒に取り組む学際的な研究も強化しています。

■論文の概要

「Not Eliminate but Aggregate: Post-Hoc Control over Mixture-of-Experts to Address Shortcut Shifts in Natural Language Understanding」
著者:本多右京(サイバーエージェント)・岡達志(慶應義塾大学)・ 張培楠(サイバーエージェント)・三田雅人(サイバーエージェント)
本研究の目的は、入力データ中の様々な情報を用いた頑健な予測を行うことです。
機械学習では、モデルがデータ中の簡易な情報(ショートカット)を用いて短絡的に予測してしまう問題が知られています。これは例えば、選択式問題で学習時に1番目と2番目の選択肢が交互に正解となる傾向があった場合に、問いの内容に関係なくそのように交互に選択肢を選ぶようになってしまうといった問題です。このように、ショートカットは正しい予測を行うための本質的な情報ではないため、容易に誤った予測を導いてしまいます。

これまでの研究では本質的な情報だけに基づいた予測を目標として手法が提案されてきましたが、この学習は困難であることが知られています。そこで、本研究ではこれを直接の目標とせず、異なる情報に基づいた予測を統合することでショートカットの問題に対処します。学習時には複数のモデルに対してそれぞれ異なる情報に基づいて予測するよう促し、予測時にはいずれかの情報で予測が誤る場合のリスクを最小化するようにモデルの予測を統合します。

テキスト分類タスクで実験を行い、ショートカットでは正しく予測できない敵対的なデータにおいて、提案手法が既存手法よりも頑健に予測することを確認しました。予測統合時のリスク最小化は意思決定理論に基づいており、領域横断的な研究となっています。

■今後

本研究の成果は、広告文の品質をチェックするためのテキスト評価モデルにおいて、頑健性の向上に活用されることが期待されます。今後も「AI Lab」ではより効果の高い広告制作と運用を目指し、領域を超えた研究・開発にも努めてまいります。




※1 Transactions of the Association for Computational Linguistics 
※2 事象の間の原因と結果の関係性を、データに基づいて推定すること