AI Lab、機械学習分野のトップカンファレンス「KDD 2022」にて論文採択ー機械学習における観測遅延問題の改善方法を提案ー

広告｜2022年6月20日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の安井翔太および加藤真大による共著論文「Learning Classifiers under Delayed Feedback with a Time Window Assumption」が、機械学習分野の国際会議「KDD 2022」(ACM SIGKDD Conference on Knowledge Discovery and Data Mining※1)に採択されたことをお知らせいたします。

「KDD」は世界中の研究者によって毎年開催される国際会議で、「AAAI ※2」「NeurIPS※3」「ICML※4」と並び、機械学習の分野で権威あるトップカンファレンスの1つです。このたび「AI Lab」から採択された論文は、2022年8月に開催される「KDD 2022」で発表を行います。

■研究背景
近年、さまざまな業界においてDX推進によるデータの取得・活用が加速しており、それに伴い多くのビジネスでAI導入が広がっています。特に、DXにより得られるユーザーの行動予測データは、ターゲティングおよびコミュニケーションのパーソナライズをはじめとするマーケティング活動において重要とされており、当社においても小売や行政・金融業界向けのDX推進事業において、行動予測の精度向上に関する研究・開発を積極的に行ってまいりました。

●データの遅延（Delayed Feedback）問題について
ユーザーの商品購買などにおいて行動予測を行うことで、より効果的なマーケティングが可能となりますが、実際に購買の予測モデルを学習する場合にはデータの遅延（Delayed Feedback）が問題になります。

ユーザーの購買予測モデルを学習する場合、ユーザーの行動履歴と購買履歴をある特定の時刻に定め、学習の元となる教師データを集めます。しかし、このデータの集計において「本来購買するユーザーであるものの、教師データを集めたタイミングではまだ購買していないユーザー」が、教師データの中では「購買していないユーザー」として扱われる、ミスラベルと呼ばれる問題が発生します。
これに対して何の対処も行わない場合、予測モデルは本来の購買確率を下回る予測を行う傾向となり、結果的に予測精度を低下させることになります。

■研究概要
AILabでは、2020年に因果推論の手法を応用することでこのようなデータの遅延（Delayed Feedback）によるミスラベルの問題を改善する手法を提案しました。しかし、この手法はミスラベルが発生する確率を事前に推定する必要があり、さらに理論的にも改善の余地のあるものでした。

こうした背景のもと、今回採択された論文「Learning Classifiers under Delayed Feedback with a Time Window Assumption」※5では、データの遅延（Delayed Feedback）によるミスラベルの問題を理論的に整理し、改善する方法を提案しました。

本論文では、ミスラベルが無い理想的なデータの状況と、ミスラベルのある現実的なデータの状況との差を定式化しました。そして、定式化された差を用いて、ミスラベルのある現実的なデータでの学習に補正をかけることで、ミスラベルがない理想的な場合における予測を可能としました。また、このような補正を行う際に発生する学習上の問題に対して、半教師付き学習のテクニックによる対応策が利用可能であることを示しました。

■今後
本研究において提案された方法は、ユーザーの行動予測を用いるさまざまなプロダクトへの導入を予定しており、ユーザー行動の予測を基軸とした広告配信やCRMなどでの性能向上が期待されます。「AI Lab」は今後もビジネス課題の解決に向けたAI技術をプロダクトに取り入れるべく、研究・開発に努めてまいります。

※1 https://kdd.org/kdd2022/
※2 「AAAI」Association for the Advancement of Artificial Intelligence
※3 「NeurIPS」Neural Information Processing Systems
※4 「ICML」International Conference on Machine Learning
※5. https://arxiv.org/abs/2009.13092