株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証一部上場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の野村将寛*、半熟仮想株式会社の齋藤優太氏*による共著論文が、データマイニング分野の国際会議「CIKM 2021」※1の本会議に採択されたことをお知らせいたします。(*共同主著)
「CIKM」は世界中の研究者によって毎年開催される国際会議で、データマイニング・情報検索分野で権威ある国際会議の一つです。2021年度の本会議の採択率はおよそ21.7%と難易度の高い年となり、この度「AI Lab」から採択された論文は、2021年11月にオンラインで開催される「CIKM 2021」で発表いたします。
「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取組んでいます。近年多くのウェブサービスにて機械学習が用いられており、例えばインターネット広告ではユーザーのアクセスごとにユーザー属性に適した広告を選択・配信するための「機械学習モデルの学習」が日々行なわれています。そしてサービスの品質向上に繋げるには、機械学習モデルの予測性能を保つため、常に新しいデータを用いて学習を繰り返すことが重要です。
■研究背景:予測性能の最大化に繋がる、ハイパーパラメーター最適化
機械学習モデルには、分析者が事前に設定・チューニングする「ハイパーパラメーター」と呼ばれるパラメーターが存在します。ハイパーパラメーターは学習モデルの予測性能に大きな影響を与えるため、実サービスに機械学習モデルを導入する際には、適切なハイパーパラメーターを設定することが必要とされています。
しかし、ハイパーパラメーターを設定した際の機械学習の予測性能の評価には大きな計算コストが必要なため、大量のハイパーパラメーターの組み合わせを評価して、その中から適切なハイパーパラメーターを特定することは現実的ではありません。よって「少ない計算コストで、適切なハイパーパラメーターを効率的に選択すること」が機械学習の実践上極めて重要です。
このような課題から、当社では「AI Lab」において「HPO team (Hyperparameter Optimization team)」を発足し専門的にこの領域に関する研究に取組んでおり、トップカンファレンス「AAAI2021」での論文採択・発表の実施 ※2 や、国際コンペティション「NeurIPS 2020 Black-Box Optimization Challenge」において、Preferred Networks社との合同チームで世界5位に入賞 ※3 をするなど、積極的な活動を行っております。
■予測性能の計算に必要な正解情報について
ハイパーパラメーター最適化の目的は「機械学習モデルの予測性能を最大化するハイパーパラメーター」を発見することです。予測性能は、機械学習モデルが予測する値と、正解情報との一致の度合いから計算されます。
例えば、小売業界において重要である「商品の需要予測」においては、ある商品に対する予測購買額と、その商品の実際の購買額を用いて機械学習の予測性能を計算します。
しかし、実応用においてはこの正解情報(商品の実際の購買額)が利用できない場合が多々あります。例として、販売をしていない新しい商品について需要予測を行う場合には、正解情報である購買額についてのデータは存在しません。
そのため、手元にある学習モデルが新商品の購買額を予測しても、正解情報との一致度合いの算出および予測性能を評価することができず、結果として「適切なハイパーパラメータを見つける事が困難になる」という課題が生じます。
■論文研究の概要
このような背景のもと、今回採択された共著論文「Efficient Hyperparameter Optimization under Multi-Source Covariate Shift」※4 では、対象データの正解情報が利用できない場合でも、効率的なハイパーパラメーター最適化を可能にする方法を提案しました。
本研究では、「正解情報の得られているデータ」と「正解情報の得られていない新たなデータ」の関係性を学習・評価し、その評価結果を応用することで、「正解情報の得られていない新たなデータ」に対しても機械学習の予測性能を評価することを可能にしました。
これにより、正解情報のないデータに対しても精度の高い機械学習モデルを構築することが可能となります。
商品の需要予測を例とした場合には、「既に販売を行った商品」と「新商品」の関係性を学習し、その評価結果を用いることで、新商品を販売する前に、適切なハイパーパラメーター設定のもとで機械学習モデルを学習させることが可能となり、精度の高い新商品の需要予測が可能となります。
■今後
本研究において提案された方法は、商品の需要予測以外にも、インターネット広告におけるクリック率推定などの様々な問題に対して応用が可能です。今後は、当社で提供している小売・広告配信プロダクトをはじめとした、機械学習を利用している様々なプロダクトへの導入を予定しており、機械学習サービスの性能向上などを目的とした各種活動において貢献が期待されます。「AI Lab」は今後もビジネス課題の解決に向けたAI技術をプロダクトに取り入れるべく、研究・開発に努めてまいります。
※1「CIKM」The Conference on Information and Knowledge Management
※2 AI Lab、人工知能分野のトップカンファレンス「AAAI 2021」にて共著論文採択 ー 事前情報を活用した効率的なハイパーパラメーター最適化手法を提案 ー
※3 【AI Lab x PFN】ハイパーパラメータ最適化アルゴリズムの国際コンペで世界5位に入賞、「NeurIPS 2020」の併設コンペティションにて発表します
※4 Masahiro Nomura, Yuta Saito, ‘‘Efficient Hyperparameter Optimization under Multi-Source Covariate Shift’’, CIKM. 2021.
「CIKM」は世界中の研究者によって毎年開催される国際会議で、データマイニング・情報検索分野で権威ある国際会議の一つです。2021年度の本会議の採択率はおよそ21.7%と難易度の高い年となり、この度「AI Lab」から採択された論文は、2021年11月にオンラインで開催される「CIKM 2021」で発表いたします。
「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取組んでいます。近年多くのウェブサービスにて機械学習が用いられており、例えばインターネット広告ではユーザーのアクセスごとにユーザー属性に適した広告を選択・配信するための「機械学習モデルの学習」が日々行なわれています。そしてサービスの品質向上に繋げるには、機械学習モデルの予測性能を保つため、常に新しいデータを用いて学習を繰り返すことが重要です。
■研究背景:予測性能の最大化に繋がる、ハイパーパラメーター最適化
機械学習モデルには、分析者が事前に設定・チューニングする「ハイパーパラメーター」と呼ばれるパラメーターが存在します。ハイパーパラメーターは学習モデルの予測性能に大きな影響を与えるため、実サービスに機械学習モデルを導入する際には、適切なハイパーパラメーターを設定することが必要とされています。
しかし、ハイパーパラメーターを設定した際の機械学習の予測性能の評価には大きな計算コストが必要なため、大量のハイパーパラメーターの組み合わせを評価して、その中から適切なハイパーパラメーターを特定することは現実的ではありません。よって「少ない計算コストで、適切なハイパーパラメーターを効率的に選択すること」が機械学習の実践上極めて重要です。
このような課題から、当社では「AI Lab」において「HPO team (Hyperparameter Optimization team)」を発足し専門的にこの領域に関する研究に取組んでおり、トップカンファレンス「AAAI2021」での論文採択・発表の実施 ※2 や、国際コンペティション「NeurIPS 2020 Black-Box Optimization Challenge」において、Preferred Networks社との合同チームで世界5位に入賞 ※3 をするなど、積極的な活動を行っております。
■予測性能の計算に必要な正解情報について
ハイパーパラメーター最適化の目的は「機械学習モデルの予測性能を最大化するハイパーパラメーター」を発見することです。予測性能は、機械学習モデルが予測する値と、正解情報との一致の度合いから計算されます。
例えば、小売業界において重要である「商品の需要予測」においては、ある商品に対する予測購買額と、その商品の実際の購買額を用いて機械学習の予測性能を計算します。
しかし、実応用においてはこの正解情報(商品の実際の購買額)が利用できない場合が多々あります。例として、販売をしていない新しい商品について需要予測を行う場合には、正解情報である購買額についてのデータは存在しません。
そのため、手元にある学習モデルが新商品の購買額を予測しても、正解情報との一致度合いの算出および予測性能を評価することができず、結果として「適切なハイパーパラメータを見つける事が困難になる」という課題が生じます。
■論文研究の概要
このような背景のもと、今回採択された共著論文「Efficient Hyperparameter Optimization under Multi-Source Covariate Shift」※4 では、対象データの正解情報が利用できない場合でも、効率的なハイパーパラメーター最適化を可能にする方法を提案しました。
本研究では、「正解情報の得られているデータ」と「正解情報の得られていない新たなデータ」の関係性を学習・評価し、その評価結果を応用することで、「正解情報の得られていない新たなデータ」に対しても機械学習の予測性能を評価することを可能にしました。
これにより、正解情報のないデータに対しても精度の高い機械学習モデルを構築することが可能となります。
商品の需要予測を例とした場合には、「既に販売を行った商品」と「新商品」の関係性を学習し、その評価結果を用いることで、新商品を販売する前に、適切なハイパーパラメーター設定のもとで機械学習モデルを学習させることが可能となり、精度の高い新商品の需要予測が可能となります。
■今後
本研究において提案された方法は、商品の需要予測以外にも、インターネット広告におけるクリック率推定などの様々な問題に対して応用が可能です。今後は、当社で提供している小売・広告配信プロダクトをはじめとした、機械学習を利用している様々なプロダクトへの導入を予定しており、機械学習サービスの性能向上などを目的とした各種活動において貢献が期待されます。「AI Lab」は今後もビジネス課題の解決に向けたAI技術をプロダクトに取り入れるべく、研究・開発に努めてまいります。
※1「CIKM」The Conference on Information and Knowledge Management
※2 AI Lab、人工知能分野のトップカンファレンス「AAAI 2021」にて共著論文採択 ー 事前情報を活用した効率的なハイパーパラメーター最適化手法を提案 ー
※3 【AI Lab x PFN】ハイパーパラメータ最適化アルゴリズムの国際コンペで世界5位に入賞、「NeurIPS 2020」の併設コンペティションにて発表します
※4 Masahiro Nomura, Yuta Saito, ‘‘Efficient Hyperparameter Optimization under Multi-Source Covariate Shift’’, CIKM. 2021.