株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の蟻生 開人、阿部 拳之およびスウェーデン王立工科大学Alexandre Proutière教授による論文「Thresholded Lasso Bandit」が、機械学習分野の国際会議「ICML」※1に採択されたことをお知らせいたします。
「ICML」は世界中の研究者によって毎年開催される国際会議で、「NeurIPS」※2 と並び、機械学習・深層学習・学習理論・最適化等の分野において権威のある会議の1つです。このたび「AI Lab」から採択された論文は、2022年7月にボルチモアにて開催される「ICML2022」にて発表を行うほか、その会議録である「Proceedings of Machine Learning Research」※3に掲載される予定です。
■研究背景
近年、広告配信・推薦システム・医療における臨床試験等において、取得するデータを適応的に決めながら最適な意思決定を行う回数を最大化することを目指す、バンディット問題(逐次的な意思決定問題)が盛んに考察されています。バンディット問題に対しては様々なアルゴリズムが提案・活用されており、特にウェブサービスにおいては、オンライン広告配信時にユーザーに提示する広告クリエイティブを選択するタスクへの応用が盛んです。
このようなバンディット問題において意思決定を行う際に、時刻・ユーザーの年齢層・ユーザーが利用しているOSなどをはじめとする文脈情報が得られる場合があります。これらの文脈情報を適切に利用することで、より優れた意思決定を行うことが可能です。
一方、オンライン広告配信においては、意思決定の時間制約やシステム制約のため、文脈情報を非常に高次元なベクトルに変換して用いる方式が多く採用されており、こうした高次元情報の元では、より適切な意思決定の判断を行うことが困難という課題がありました。このような課題を解決するための問題設定を、「高次元文脈付きバンディット問題」と呼びます。
本論文では高次元文脈付きバンディット問題に対して、回帰分析において変数選択を促すラッソ回帰を発展させた手法を提案し、優れた性能を持つことを理論解析・実験の双方で示しました。
■研究概要
本研究では、高次元文脈付きバンディット問題を考え、高次元ベクトルの台推定(意思決定に関与する要素の推定)と値推定(各要素が意思決定に関与する程度の定量的な推定)を明示的に分離して行うアルゴリズムを提案しました。
本提案手法の元では、アルゴリズムの性能を測る指標であるリグレットの値が既存研究と比較して大幅に改善するほか、効果的な文脈要素を的確に抽出できることを理論解析・実験の双方によって示しました。
さらに、本提案手法は特定の条件下ではハイパーパラメータが存在せずとも動作が可能であることが示されたほか、先行研究と比較してハイパーパラメータ調整誤差に対して高い頑強性を持つことが示されました。
■今後
今回提案された手法は、実サービスにおいて幅広く適応が可能です。実際に「AI Lab」では提案手法を、当社が展開する「Dynalyst」※4 等の広告配信プロダクトへと応用し、意思決定の質の向上を確認しております。「AI Lab」は今後も競争力のあるプロダクトの核となるような技術を実現すべく、研究・開発に努めてまいります。
※1 「ICML」
※2 「NeurIPS」
※3 「Proceedings of Machine Learning Research」
※4 「Dynalyst」
「ICML」は世界中の研究者によって毎年開催される国際会議で、「NeurIPS」※2 と並び、機械学習・深層学習・学習理論・最適化等の分野において権威のある会議の1つです。このたび「AI Lab」から採択された論文は、2022年7月にボルチモアにて開催される「ICML2022」にて発表を行うほか、その会議録である「Proceedings of Machine Learning Research」※3に掲載される予定です。
■研究背景
近年、広告配信・推薦システム・医療における臨床試験等において、取得するデータを適応的に決めながら最適な意思決定を行う回数を最大化することを目指す、バンディット問題(逐次的な意思決定問題)が盛んに考察されています。バンディット問題に対しては様々なアルゴリズムが提案・活用されており、特にウェブサービスにおいては、オンライン広告配信時にユーザーに提示する広告クリエイティブを選択するタスクへの応用が盛んです。
このようなバンディット問題において意思決定を行う際に、時刻・ユーザーの年齢層・ユーザーが利用しているOSなどをはじめとする文脈情報が得られる場合があります。これらの文脈情報を適切に利用することで、より優れた意思決定を行うことが可能です。
一方、オンライン広告配信においては、意思決定の時間制約やシステム制約のため、文脈情報を非常に高次元なベクトルに変換して用いる方式が多く採用されており、こうした高次元情報の元では、より適切な意思決定の判断を行うことが困難という課題がありました。このような課題を解決するための問題設定を、「高次元文脈付きバンディット問題」と呼びます。
本論文では高次元文脈付きバンディット問題に対して、回帰分析において変数選択を促すラッソ回帰を発展させた手法を提案し、優れた性能を持つことを理論解析・実験の双方で示しました。
■研究概要
本研究では、高次元文脈付きバンディット問題を考え、高次元ベクトルの台推定(意思決定に関与する要素の推定)と値推定(各要素が意思決定に関与する程度の定量的な推定)を明示的に分離して行うアルゴリズムを提案しました。
本提案手法の元では、アルゴリズムの性能を測る指標であるリグレットの値が既存研究と比較して大幅に改善するほか、効果的な文脈要素を的確に抽出できることを理論解析・実験の双方によって示しました。
さらに、本提案手法は特定の条件下ではハイパーパラメータが存在せずとも動作が可能であることが示されたほか、先行研究と比較してハイパーパラメータ調整誤差に対して高い頑強性を持つことが示されました。
■今後
今回提案された手法は、実サービスにおいて幅広く適応が可能です。実際に「AI Lab」では提案手法を、当社が展開する「Dynalyst」※4 等の広告配信プロダクトへと応用し、意思決定の質の向上を確認しております。「AI Lab」は今後も競争力のあるプロダクトの核となるような技術を実現すべく、研究・開発に努めてまいります。
※1 「ICML」
※2 「NeurIPS」
※3 「Proceedings of Machine Learning Research」
※4 「Dynalyst」