強化学習を当たり前の選択肢にしたい
ー利益を最大化する技術「強化学習」の実応用に向けてー

技術・クリエイティブ

2022年3月23日

実サービスにおける、利益を最大化する意思決定が可能な技術ー「強化学習」ー。
ビジネス上、重要な技術でありながら、一般的には実用化においてハードルが高いとされています。

「AI Lab」にジョインし強化学習の社会実装を行う阿部と、同チームにて研究を行う「強化学習」（機械学習プロフェッショナルシリーズ）」の著書でもある森村に、サイバーエージェントだからこそ実現できる強化学習の実用化、目指す未来について聞いてみました。

異分野から強化学習の研究へシフトした２人が考える「強化学習」

結局行き着くところは強化学習が必要になってくる

実装力・サービスとの連携・ドメイン、全て揃うからこそチャレンジできる実用化

強化学習を当たり前の選択肢にしたい

阿部拳之 / AI Lab リサーチサイエンティスト
2017年に東京工業大学大学院総合理工学研究科を修了後、株式会社ハル研究所でゲーム開発に携わる。2018年にサイバーエージェントに入社し、現在はAI Labの強化学習チームのリーダーとしてマルチエージェント強化学習、不完全情報ゲームに関する研究に従事。森村哲郎 / AI Lab リサーチサイエンティスト
2021年からサイバーエージェントAI Lab研究員．広告や強化学習に関する研究に従事． 2008年に奈良先端科学技術大学院大学にてPh.D.取得．2008年から2021年までIBM東京基礎研究所研究員．著書に「強化学習（機械学習プロフェッショナルシリーズ）」（講談社,2019）や「これからの強化学習」（共著,森北出版,2016）などがある。 — **阿部拳之** **/ AI Lab リサーチサイエンティスト**
2017年に東京工業大学大学院総合理工学研究科を修了後、株式会社ハル研究所でゲーム開発に携わる。2018年にサイバーエージェントに入社し、現在はAI Labの強化学習チームのリーダーとしてマルチエージェント強化学習、不完全情報ゲームに関する研究に従事。
**森村哲郎** **/ AI Lab リサーチサイエンティスト**
2021年からサイバーエージェントAI Lab研究員．広告や強化学習に関する研究に従事． 2008年に奈良先端科学技術大学院大学にてPh.D.取得．2008年から2021年までIBM東京基礎研究所研究員．著書に「強化学習（機械学習プロフェッショナルシリーズ）」（講談社,2019）や「これからの強化学習」（共著,森北出版,2016）などがある。

異分野から強化学習の研究へシフトした２人が考える「強化学習」

ーおふたりが「強化学習」を研究し始めたきっかけについて教えてください

【森村】私はもともと生物寄りの研究をしていて、ある時から、もう少し生物をシステマティックに理解したいという気持ちが芽生え、そこから脳や強化学習を研究し始めました。

「脳をつくることで脳を理解する」という川人光男先生と銅谷賢治先生らの考えに感動し、人や生き物が行動を学んでいくときのモデルとして強化学習がフィットするのかなと思ったのが入り口でした。

【阿部】森村さんが書かれた著書「強化学習（機械学習プロフェッショナルシリーズ）」は非常に有名で、机の上にもずっと置いてあるくらい愛読させてもらってたので、まさか今こうして一緒に働いているとは昔の僕からしたら想像がつかないです（笑）

僕自身も元々は制御工学を専攻していましたが、その際に強化学習によって制御を行う研究の存在を知り、徐々にそちらの研究へシフトしました。

ー「強化学習」を活用すると、どのようなことが可能になるのでしょうか？

【阿部】実際のサービスにおける、利益や利得を最大化する意思決定をすることが可能です。もう少し具体的には、最終的な成果や利益を最大化するために、個々の経験から学習して、その後の行動を最適化し続けていく、「走りながら考えるタイプの学習方法」が強化学習です。長期的な視点で意思決定の最適化ができる技術と言えるでしょう。

従来のデータサイエンスでは「教師あり学習」という学習手法を用いて1つの施策における予測の誤差を減らすことに注力をしますが、目的を紐解くと実は本質的に達成したいことは「利益などの指標の最大化」で、実は強化学習の枠組みとして考えるほうが適していることが多いのです。

例えば、あるサービス等でキャンペーンを打つ際、そのキャンペーンの効果を予測するモデルを学習させることはよく行われると思います。しかし多くの場合、キャンペーンを打つ理由は売上を上げるためだと思うので、本来は売上を上げるキャンペーンの打ち方とはなにか、ということを考えなければいけません。強化学習の枠組みとして捉えると、このような問題を扱うことが可能になります。

結局行き着くところは強化学習が必要になってくる

ー「強化学習」はどんな領域で適応できるのでしょうか？

【森村】強化学習はデータから意思決定モデルを学習しますが、ビジネスは意思決定の連続なので、問題を単純化し過ぎずに捉えると、自然と強化学習の枠組みが必要になると思います。なので、強化学習はデータが取れるほとんどのビジネス・サービスに適用されるべきだと思っています。

本当は何がしたいのか・何を最大化/最適化したいのかを考えた時に、強化学習の枠組みとして考えると解決できることが結構あったりします。

例えば、サイバーエージェントでは広告に強化学習を適応していますが、それ以外にも多くの分野に展開できると思っています。弊社が展開しているクリエイティブ制作・小売領域のDX・無人店舗・ロボット接客など、自動化において最終的にどうすればユーザーの顧客体験や満足度・幸福度が上がるのかという課題設定に対し、強化学習だと最適なKPIに落とし込んで意思決定のルールにしていくことが出来ると思うんです。

結局、行き着くところは強化学習が必要になってくるので、他チームやプロダクトと連携して、わくわくするような強化学習の成功事例を作っていきたいです。

ー一方で、実際の実用化は難易度が高いという印象があります。

【阿部】実用化にはハードルがあるなというのが、まさにこれまで感じていたところでした。一般的には、学習のアルゴリズムの方に目が行くため実装が重く難易度が高いという印象があることに加えて、そもそもサービスの課題解決において強化学習問題の枠組みとして捉えられるということ自体が感覚的に分からず、話にすら出てこないということもあります。

こうした問題解決のためにサイバーエージェントではDSOps研修を行っており、僕もその中の意思決定を取り扱うパートで講義をさせてもらっていますが、世の中的に見るとここまで取り組んでいる企業は少ない印象があります。研修のような取り組みをこれからも続けることで、「この課題って実は強化学習問題なのでは？」という思考を浸透させていきたいです。

【森村】「教師あり学習」に比べると、必要なデータ数がどうしても多かったり、使うための準備が大変だったり。強化学習を入れてみようというアイディアが出ても、いざ実装しようとするとたくさんのステップを踏む必要があり、かつそれができる人がいない。
なかなか強化学習を入れたくても入れられないという現状があるのかなと思います。
また、他のAI技術以上に、強化学習理論と実問題にギャップがあり、そのギャップを埋める研究やデータサイエンスが必要になったりすることも実用化を困難にしていると思います。

ロボットの制御やゲーム分野など一部では強化学習は使われ始めていますが、実応用という意味ではまだ世間的にも少ないのが実情なのではないでしょうか。

ただ一方で、うまく活用が進む領域もあると思っていて、「広告」はその意味でかなり応用しやすいエリアなのかなと思っていました。

実装力・サービスとの連携・ドメイン、全て揃うからこそチャレンジできる実用化

ーだからこそ、強化学習と相性の良い「広告」にチャレンジできるサイバーエージェントを選んだのでしょうか。

【森村】はい、まさにサイバーエージェントにきた理由につながります。広告であれば、広告を打った後のユーザーの反応がある程度スピーディーにとれて学習に活かせます。強化学習をオンライン環境で動かすことがすぐに出来ますし、また強化学習は失敗しながら学習するアルゴリズムなのですが、多少の失敗は許容されます。そういった意味で自動運転やロボット制御など失敗のコストが高い領域に比べ広告は強化学習と相性は良いのかなと。

入社については、阿部さんのようにゲーム理論やマルチエージェントなど幅広い知見がある方もいれば、安井さん・森脇さん・加藤さんなど経済学の側からビジネスやプロダクトの意思決定の重要性について言及しているメンバーがいるAI Labという組織に強く魅力を感じたのも1つの理由でした。

ー実際のプロダクトと密に連携していると聞きます。どのように強化学習を活用しているのでしょうか。

【阿部】Dynalystの金子さんと連携してWebサイトに訪れたユーザーの情報や広告クリエイティブの情報をもとに、バンディットアルゴリズムを適用していく研究を行っています。
最近では、実際にDynalystで私達が提案したアルゴリズムを適用するところまで持っていくことができ、強化学習の応用事例の経験を積んでいっています。特に、応用事例ならではの「やってみないとわからなかった」難しさを知れたことは今後にとって貴重な経験になると思います。

その他には、マルチエージェント強化学習の研究をしており、例えば広告オークションのように複数人の意思決定者が存在するような状況で、どのような意思決定をとったら良いのかを学習させるような分野について研究をしてます。電通大の岩崎先生とも共同で研究をやらせてもらっていますね。

【森村】阿部さんが研究するところって、かなり研究人口が日本でも少なくて。そこを1人で切り開いていってるなという印象なんです。自分の守備範囲を決めずに何か必要と感じれば、難しいエリアも臆せず進めていくのはすごいと思いますし、一緒にチームとして働いていて面白いですね。

私は極予測TD関連で、AI Labの張さんや大田さんなどと一緒に、広告文の生成を効率化するための強化学習を研究開発しています。広告以外にもCG領域・小売・スポーツDXに関してなど幅広くディスカッションする機会があるのですが、どの領域でも強化学習を活用できる可能性は無限大にあるなと感じます。

ー強化学習の実用化において、手応えはありますか？

【阿部】これまでの環境では難しかったことが、サイバーエージェントで今トライできていると感じています。やはりサービス側にいるデータサイエンティストメンバーの強化学習に対する理解があること・さらに実装力あるメンバーが多いことが、そもそもすごい環境だと思います。

【森村】入社して驚いたところとして、社内でチームを超えてコミュニケーションをする距離がすごく近いんです。強化学習はプロダクトで実装していく上での密な議論は不可欠なのですが、そういったところもやりやすい環境でした。AI Lab単体でも、皆さんそれぞれ得意なところで尖っていて、ディスカッションさせてもらうと学びも多く楽しいのですが、研究組織を超えてもそれが感じられる環境です。

【阿部】フラットに情報が収集でき、気軽に相談ができる、そして社会実装に前向きなカルチャーだからこそ、強化学習の実導入もどんどん進んでいます。

強化学習を当たり前の選択肢にしたい

ー今後やっていきたいことは？

【阿部】とにかく、プロダクトに導入する事例を増やしていきたいなと思っています。それはアルゴリズムを実装するのもそうだし、強化学習の枠組みとしてそもそも捉えられますという課題設定の事例を作っていきたい。
サイバーエージェントの中で、最初から意思決定について考えるときに、強化学習の枠組みとして捉えるのがいいよねっていうようなことが当たり前になっていくようにしていきたいなと思っています。

【森村】そういう意味でも、実装していく上でボトルネックになるようなところを取っ払う研究みたいなところはやっていきたいですね。

そして最終的には、サービスへの実用化を通し強化学習技術を社会に還元していきたいです。
それがサイバーエージェントならできると思っています。

【阿部】そのためにも、強化学習チームとして、ビジネスの利益の改善を前提とした研究開発や事例適用をこれからどんどん行っていきたいと考えており、現在、一緒に働くリサーチエンジニアの方を募集しています。
強化学習の事例適用に携わりたい、と思っている方に是非来ていただきたいですね。

リサーチエンジニア（強化学習）募集

「AI Lab」強化学習チームでは、強化学習技術の実プロダクト適用に向けて、アルゴリズムの実装や事例適用のための実験において、エンジニアリング面で貢献していただける「リサーチエンジニア」を募集しています。
興味を持って頂いた方は、是非下記よりご応募下さい。

募集要項はこちら

この記事をシェア

公式SNSをフォロー

記事ランキング

採用 2025年7月15日

内定承諾後の過ごし方が入社後ギャップを減らす ──就活早期化をふまえた内定者サポート

描画負荷からビルド改善まで──コア技術本部が支える大規模ゲーム開発の生産性と品質

技術・クリエイティブ

2025年7月16日

キャラクターの動きや画面演出、操作レスポンス──ゲームの体験を形づくるのは、目に見えにくい技術の積み重ねです。細部まで丁寧に設計された表現や動作が、プレイヤーの没入感を支えています。

そうした体験の質を、技術の力でさらに引き出していく。ゲーム・エンターテイメント事業部（SGE)に設置された「SGEコア技術本部」は、パフォーマンス最適化や開発支援等に携わる横断的な技術チームです。Unityを活用したプロファイリングやエディター拡張、ビルド改善、さらにはAIによる負荷分析の可能性まで──快適で魅力的なゲーム体験を支えるための取り組みに迫ります。

大規模ゲームの裏側を支える、パフォーマンスチューニングの現場へ

無意識の作業遅延を減らす──開発効率を上げるSGEコア技術本部のパフォーマンス最適化

AIと共に考え、現場を支える──これからの技術支援に求められる視点

続きはこちら

技術・クリエイティブ - 新着記事

記事一覧

技術・クリエイティブ一覧

前の記事次の記事