AI Lab、機械学習分野のトップカンファレンス「NeurIPS 2021」にて共著論文採択ー逐次的に収集されたデータからの意思決定評価の手法を提案ー

併設されるワークショップにおいても2本の論文を発表予定

広告｜2021年11月19日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証一部上場：証券コード4751）は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の加藤真大、安井翔太およびテンプル大学のマクリン謙一郎氏による共著論文「The Adaptive Doubly Robust Estimator and a Paradox Concerning Logging Policy」が、機械学習分野の国際会議「NeurIPS2021」(Neural Information Processing Systems ※1)に採択されたことをお知らせいたします。

「NeurIPS」は世界中の研究者によって毎年開催される国際会議で、「ICML※2」「ICLR※3」と並び、機械学習の分野で権威あるトップカンファレンスの一つです。このたび「AI Lab」から採択された論文は、2021年12月にオンラインで開催される「NeurIPS 2021」で発表を行います。さらに、会議に併設されるワークショップにおいても2本の共著論文の発表を予定しております。

■研究背景
近年様々なウェブサービスにおいて、機械学習を用いた意思決定がサービスの質を左右する重要な役割を果たしています。なかでも、機械学習を利用した際に残る「意思決定のログデータ」を使ったモデルの評価・学習が、機械学習のビジネス応用において重要だと認識されています。

一般的に、機械学習を用いた意思決定を行う際、「より新しいデータ」を利用したモデルが高い性能を発揮することが知られています。そのためいくつかの応用においては、より積極的に新しいデータを利用するために、意思決定を行う度に新たに発生するログデータを利用してモデルの更新が行われています。

しかし、このように過去のデータに依存してモデルが更新され、そのモデルに基づいて「ある時点の意思決定」を行って新しいデータを得ると、過去のデータと新しく得られるデータの間に依存関連が生まれます。
この結果、多くの機械学習や統計学の手法の前提である「独立同分布の仮定」が満たされず、意思決定の評価や学習において提案されている手法が利用できない状況になるという課題がありました。

こうした問題から、過去のデータに依存して意思決定が行われる状況においても利用可能な意思決定の評価や学習方法が求められています。

■研究概要
このような背景のもと、今回採択された共著論文「The Adaptive Doubly Robust Estimator for Policy Evaluation in Adaptive Experiments and a Paradox Concerning Logging Policy」※4 では、データに依存関係がある場合にも利用可能な意思決定の評価方法を提案しました。

本論文では、「adaptive fitting」と呼ばれる手法を提案し、ある時点のデータが過去のデータに依存している際、データから新しい意思決定の評価を行うために、データ間の依存関係をうまく制御できるようにデータセットを分割することでこの問題を解決します。

具体的に「adaptive fitting」では、ある時点の意思決定を評価する際に、本来利用可能な全てのデータではなく、あえてその時点よりも前に得られていたデータのみを評価に利用します。

このような操作により、本来は依存関係が存在しているデータの中から、依存関係をうまく制御できるようにデータを分割することで、より精度の高い機械学習モデルの評価・学習が可能となります。最後に各時点の意思決定の評価を行い、その平均を計算することで、過去のデータから新しい意思決定の評価を行います。

▼「adaptive fitting」を用いる分割のイメージ

本研究では、従来までに提案されていた既存手法と共に提案手法を実験で検証しており、既存手法と比較して提案手法がより安定した性能を発揮することを明らかにしました。

■そのほかの発表について
「AI Lab」は本論文の発表以外にも、「NeurIPS 2021」にて開催される経済学と機械学習の融合に関するワークショップ「Workshop on on Machine Learning meets Econometrics（MLECON 2021）※5」と、深層強化学習に関するワークショップ「Workshop on Deep Reinforce Learning※6」にて論文を発表いたします。

<ワークショップで発表予定の論文＞
Learning Causal Relationship from Conditional Moment Restriction by Importance Weighting ※7
Masahiro Kato, Maaki Imaizumi, Shota Yasui, Kenichiro McAlinn, Haruo Kakehi
Workshop on on Machine Learning meets Econometrics（MLECON 2021）

Mean Variance Efficient Reinforcement Learning ※8
Masahiro Kato, Kei Nakagawa, Kenshi Abe, Tetsuro Morimura
Workshop on Deep Reinforce Learning

■今後
本研究において提案された方法は、広告配信をはじめ機械学習を利用している様々なプロダクトへの導入を予定しており、機械学習サービスの性能向上などを目的とした各種活動において貢献が期待されます。「AI Lab」は今後もビジネス課題の解決に向けたAI技術をプロダクトに取り入れるべく、研究・開発に努めてまいります。

※1 「NeurIPS」Neural Information Processing Systems
※2 「ICML」International Conference on Machine Learning
※3 「ICLR」International Conference on Learning Representations
※4 https://arxiv.org/abs/2010.03792
※5 https://sites.google.com/view/mlecon2021/home
※6 https://sites.google.com/view/deep-rl-workshop-neurips2021
※7 https://arxiv.org/abs/2108.01312
※8 https://arxiv.org/abs/2010.01404