強化学習を当たり前の選択肢にしたい
ー利益を最大化する技術「強化学習」の実応用に向けてー

技術・デザイン

実サービスにおける、利益を最大化する意思決定が可能な技術ー「強化学習」ー。
ビジネス上、重要な技術でありながら、一般的には実用化においてハードルが高いとされています。

「AI Lab」にジョインし強化学習の社会実装を行う阿部と、同チームにて研究を行う「強化学習」(機械学習プロフェッショナルシリーズ)」の著書でもある森村に、サイバーエージェントだからこそ実現できる強化学習の実用化、目指す未来について聞いてみました。

  阿部 拳之     /  AI Lab リサーチサイエンティスト  
2017年に東京工業大学大学院総合理工学研究科を修了後、株式会社ハル研究所でゲーム開発に携わる。2018年にサイバーエージェントに入社し、現在はAI Labの強化学習チームのリーダーとしてマルチエージェント強化学習、不完全情報ゲームに関する研究に従事。   森村 哲郎     /  AI Lab リサーチサイエンティスト  
2021年からサイバーエージェントAI Lab研究員.広告や強化学習に関する研究に従事. 2008年に奈良先端科学技術大学院大学にてPh.D.取得.2008年から2021年までIBM東京基礎研究所研究員. 著書に「 強化学習(機械学習プロフェッショナルシリーズ) 」(講談社,2019)や「 これからの強化学習 」(共著,森北出版,2016)などがある。
阿部 拳之 / AI Lab リサーチサイエンティスト
2017年に東京工業大学大学院総合理工学研究科を修了後、株式会社ハル研究所でゲーム開発に携わる。2018年にサイバーエージェントに入社し、現在はAI Labの強化学習チームのリーダーとしてマルチエージェント強化学習、不完全情報ゲームに関する研究に従事。
森村 哲郎 / AI Lab リサーチサイエンティスト
2021年からサイバーエージェントAI Lab研究員.広告や強化学習に関する研究に従事. 2008年に奈良先端科学技術大学院大学にてPh.D.取得.2008年から2021年までIBM東京基礎研究所研究員. 著書に「強化学習(機械学習プロフェッショナルシリーズ)」(講談社,2019)や「これからの強化学習」(共著,森北出版,2016)などがある。

異分野から強化学習の研究へシフトした2人が考える「強化学習」

ーおふたりが「強化学習」を研究し始めたきっかけについて教えてください


【森村】私はもともと生物寄りの研究をしていて、ある時から、もう少し生物をシステマティックに理解したいという気持ちが芽生え、そこから脳や強化学習を研究し始めました。

「脳をつくることで脳を理解する」という川人光男先生と銅谷賢治先生らの考えに感動し、人や生き物が行動を学んでいくときのモデルとして強化学習がフィットするのかなと思ったのが入り口でした。

【阿部】森村さんが書かれた著書「強化学習(機械学習プロフェッショナルシリーズ)」は非常に有名で、机の上にもずっと置いてあるくらい愛読させてもらってたので、まさか今こうして一緒に働いているとは昔の僕からしたら想像がつかないです(笑)

僕自身も元々は制御工学を専攻していましたが、その際に強化学習によって制御を行う研究の存在を知り、徐々にそちらの研究へシフトしました。


ー「強化学習」を活用すると、どのようなことが可能になるのでしょうか?


【阿部】実際のサービスにおける、利益や利得を最大化する意思決定をすることが可能です。もう少し具体的には、最終的な成果や利益を最大化するために、個々の経験から学習して、その後の行動を最適化し続けていく、「走りながら考えるタイプの学習方法」が強化学習です。長期的な視点で意思決定の最適化ができる技術と言えるでしょう。

従来のデータサイエンスでは「教師あり学習」という学習手法を用いて1つの施策における予測の誤差を減らすことに注力をしますが、目的を紐解くと実は本質的に達成したいことは「利益などの指標の最大化」で、実は強化学習の枠組みとして考えるほうが適していることが多いのです。

例えば、あるサービス等でキャンペーンを打つ際、そのキャンペーンの効果を予測するモデルを学習させることはよく行われると思います。しかし多くの場合、キャンペーンを打つ理由は売上を上げるためだと思うので、本来は売上を上げるキャンペーンの打ち方とはなにか、ということを考えなければいけません。強化学習の枠組みとして捉えると、このような問題を扱うことが可能になります。

結局行き着くところは強化学習が必要になってくる

ー「強化学習」はどんな領域で適応できるのでしょうか?


【森村】強化学習はデータから意思決定モデルを学習しますが、ビジネスは意思決定の連続なので、問題を単純化し過ぎずに捉えると、自然と強化学習の枠組みが必要になると思います。なので、強化学習はデータが取れるほとんどのビジネス・サービスに適用されるべきだと思っています。

本当は何がしたいのか・何を最大化/最適化したいのかを考えた時に、強化学習の枠組みとして考えると解決できることが結構あったりします。

例えば、サイバーエージェントでは広告に強化学習を適応していますが、それ以外にも多くの分野に展開できると思っています。弊社が展開しているクリエイティブ制作・小売領域のDX・無人店舗・ロボット接客など、自動化において最終的にどうすればユーザーの顧客体験や満足度・幸福度が上がるのかという課題設定に対し、強化学習だと最適なKPIに落とし込んで意思決定のルールにしていくことが出来ると思うんです。

結局、行き着くところは強化学習が必要になってくるので、他チームやプロダクトと連携して、わくわくするような強化学習の成功事例を作っていきたいです。


ー 一方で、実際の実用化は難易度が高いという印象があります。


【阿部】実用化にはハードルがあるなというのが、まさにこれまで感じていたところでした。一般的には、学習のアルゴリズムの方に目が行くため実装が重く難易度が高いという印象があることに加えて、そもそもサービスの課題解決において強化学習問題の枠組みとして捉えられるということ自体が感覚的に分からず、話にすら出てこないということもあります。

こうした問題解決のためにサイバーエージェントではDSOps研修を行っており、僕もその中の意思決定を取り扱うパートで講義をさせてもらっていますが、世の中的に見るとここまで取り組んでいる企業は少ない印象があります。研修のような取り組みをこれからも続けることで、「この課題って実は強化学習問題なのでは?」という思考を浸透させていきたいです。

【森村】「教師あり学習」に比べると、必要なデータ数がどうしても多かったり、使うための準備が大変だったり。強化学習を入れてみようというアイディアが出ても、いざ実装しようとするとたくさんのステップを踏む必要があり、かつそれができる人がいない。
なかなか強化学習を入れたくても入れられないという現状があるのかなと思います。
また、他のAI技術以上に、強化学習理論と実問題にギャップがあり、そのギャップを埋める研究やデータサイエンスが必要になったりすることも実用化を困難にしていると思います。

ロボットの制御やゲーム分野など一部では強化学習は使われ始めていますが、実応用という意味ではまだ世間的にも少ないのが実情なのではないでしょうか。

ただ一方で、うまく活用が進む領域もあると思っていて、「広告」はその意味でかなり応用しやすいエリアなのかなと思っていました。
 

実装力・サービスとの連携・ドメイン、全て揃うからこそチャレンジできる実用化

ーだからこそ、強化学習と相性の良い「広告」にチャレンジできるサイバーエージェントを選んだのでしょうか。


【森村】はい、まさにサイバーエージェントにきた理由につながります。広告であれば、広告を打った後のユーザーの反応がある程度スピーディーにとれて学習に活かせます。強化学習をオンライン環境で動かすことがすぐに出来ますし、また強化学習は失敗しながら学習するアルゴリズムなのですが、多少の失敗は許容されます。そういった意味で自動運転やロボット制御など失敗のコストが高い領域に比べ広告は強化学習と相性は良いのかなと。

入社については、阿部さんのようにゲーム理論やマルチエージェントなど幅広い知見がある方もいれば、安井さん森脇さん加藤さんなど経済学の側からビジネスやプロダクトの意思決定の重要性について言及しているメンバーがいるAI Labという組織に強く魅力を感じたのも1つの理由でした。


ー実際のプロダクトと密に連携していると聞きます。どのように強化学習を活用しているのでしょうか。


【阿部】Dynalystの金子さんと連携してWebサイトに訪れたユーザーの情報や広告クリエイティブの情報をもとに、バンディットアルゴリズムを適用していく研究を行っています。
最近では、実際にDynalystで私達が提案したアルゴリズムを適用するところまで持っていくことができ、強化学習の応用事例の経験を積んでいっています。特に、応用事例ならではの「やってみないとわからなかった」難しさを知れたことは今後にとって貴重な経験になると思います。

その他には、マルチエージェント強化学習の研究をしており、例えば広告オークションのように複数人の意思決定者が存在するような状況で、どのような意思決定をとったら良いのかを学習させるような分野について研究をしてます。電通大の岩崎先生とも共同で研究をやらせてもらっていますね。

【森村】阿部さんが研究するところって、かなり研究人口が日本でも少なくて。そこを1人で切り開いていってるなという印象なんです。自分の守備範囲を決めずに何か必要と感じれば、難しいエリアも臆せず進めていくのはすごいと思いますし、一緒にチームとして働いていて面白いですね。
 
私は極予測TD関連で、AI Labの張さん大田さんなどと一緒に、広告文の生成を効率化するための強化学習を研究開発しています。広告以外にもCG領域・小売・スポーツDXに関してなど幅広くディスカッションする機会があるのですが、どの領域でも強化学習を活用できる可能性は無限大にあるなと感じます。


ー 強化学習の実用化において、手応えはありますか?


【阿部】これまでの環境では難しかったことが、サイバーエージェントで今トライできていると感じています。やはりサービス側にいるデータサイエンティストメンバーの強化学習に対する理解があること・さらに実装力あるメンバーが多いことが、そもそもすごい環境だと思います。

【森村】入社して驚いたところとして、社内でチームを超えてコミュニケーションをする距離がすごく近いんです。強化学習はプロダクトで実装していく上での密な議論は不可欠なのですが、そういったところもやりやすい環境でした。AI Lab単体でも、皆さんそれぞれ得意なところで尖っていて、ディスカッションさせてもらうと学びも多く楽しいのですが、研究組織を超えてもそれが感じられる環境です。

【阿部】フラットに情報が収集でき、気軽に相談ができる、そして社会実装に前向きなカルチャーだからこそ、強化学習の実導入もどんどん進んでいます。
 

強化学習を当たり前の選択肢にしたい

ー 今後やっていきたいことは?


【阿部】とにかく、プロダクトに導入する事例を増やしていきたいなと思っています。それはアルゴリズムを実装するのもそうだし、強化学習の枠組みとしてそもそも捉えられますという課題設定の事例を作っていきたい。
サイバーエージェントの中で、最初から意思決定について考えるときに、強化学習の枠組みとして捉えるのがいいよねっていうようなことが当たり前になっていくようにしていきたいなと思っています。

【森村】そういう意味でも、実装していく上でボトルネックになるようなところを取っ払う研究みたいなところはやっていきたいですね。

そして最終的には、サービスへの実用化を通し強化学習技術を社会に還元していきたいです。
それがサイバーエージェントならできると思っています。

【阿部】そのためにも、強化学習チームとして、ビジネスの利益の改善を前提とした研究開発や事例適用をこれからどんどん行っていきたいと考えており、現在、一緒に働くリサーチエンジニアの方を募集しています。
強化学習の事例適用に携わりたい、と思っている方に是非来ていただきたいですね。

リサーチエンジニア(強化学習)募集

「AI Lab」強化学習チームでは、強化学習技術の実プロダクト適用に向けて、アルゴリズムの実装や事例適用のための実験において、エンジニアリング面で貢献していただける「リサーチエンジニア」を募集しています。
興味を持って頂いた方は、是非下記よりご応募下さい。

この記事をシェア

公式SNSをフォロー

  • Facebook
  • Twitter
  • Instagram
  • Line

記事ランキング

サイバーエージェントならではのSREの働き方と活躍するエンジニアの仕事術

技術・デザイン

Cyber Legendイベントレポート

第2回全社横断ナレッジ共有イベント「Cyber Legend」では、昨年の技術者の表彰制度「CA BASE AWARD」で最優秀ベストグロース賞を受賞した タップルの野口と、昨年の最終ベストプロフェッショナルエンジニア賞を受賞したCyberZの藤井の2名が登壇。日々サービスを提供する上で意識していることやナレッジについて話を聞きました。(モデレーター:CAM 船ヶ山)

※本記事は、2022年2月に開催した全社横断ナレッジ共有イベント「Cyber Legend」での対談内容を編集したものです。

「Cyber Legend(通称:サイレジェ)」とは
社内で活躍する社員のナレッジを部署を超えて全社で共有し、活用していくことを目的としたサイバーエージェントグループ横断のナレッジ共有イベントです。2021年7月に開催した20代限定のあした会議「YMCAあした会議」で決議され、2021年11月に第1回目を、2022年2月に第2回目をオンライン形式にて開催しました。

Page Top