フィジカルAIの先へ。社会課題を解決する「頭脳」の進化
昨今、海外企業のロボットが、その滑らかな動きやスタイリッシュな外見で注目を集めています。しかし、ロボットの活躍の場が決められた流れの中で作業を完遂する「工場や物流」の現場ではなく、不特定多数の人が行き交い、予期せぬ反応が飛び交う「接客」の現場では、物理的な体以上に重要な要素があります。それが、相手の状況を察し、最適なコミュニケーションを行う「接客の頭脳」です。
サイバーエージェントでは約10年に渡りAIに「おもてなしの心」を宿す研究をしてきました。その研究背景と現在地についてAI Lab研究員の馬場と岡藤に話を聞きます。
目次
一般的な生成AIとの決定的な違い。ノイズだらけの「リアル空間」で動く難しさ
「フィジカルAI」ブームの先へ。当社が狙うのは「接客に特化した頭脳」
「最先端の理論」×「泥臭い現場実装」。世界をリードする研究を支える、独自の開発サイクル
Profile
-
馬場 惇(ばば じゅん)
サイバーエージェント AI事業本部 AI Lab Interactive Agent グループ責任者兼 Agent Development 責任者。大阪大学との共同研究講座において、大阪大学招へい研究員としてロボットと人間のインタラクション研究に従事。長年「接客の頭脳」の開発をリードし、現在は研究成果を実際の店舗や商業施設へ導入する社会実装を推進。 -
岡藤 勇希(おかふじ ゆうき)
サイバーエージェント AI事業本部 AI Lab Agent Research 責任者。立命館大学 助教を経てサイバーエージェントに入社。現在は大阪大学招へい研究員として接客ロボットおよび機械学習の研究に従事。世界的なトップカンファレンスでの論文採択実績を多数持ち、石黒研究室との連携を通じて、理論と実践を繋ぐ技術開発を推進。
一般的な生成AIとの決定的な違い。ノイズだらけの「リアル空間」で動く難しさ
― 最近は様々な生成AIが広く普及していますが、そうした一般的な生成AIと当社の「Escort AI」は何が違うのでしょうか?
馬場: 決定的に違うのは、AIが置かれている「環境」です。ChatGPTなどのAIは、ユーザーが指示するという「明確な合図」があるまで動きません。いわば静かな部屋で待機している状態です。対して、私たちが主戦場とするのは、店内放送や周囲の雑音、さらに刻一刻と状況が変化するリアルな現場です。
岡藤: このような雑音があふれる環境下では、まずユーザーからの音声を正確に聞き取って対話を成立させる高度な技術が必要です。その上で、AI自らが「誰がこちらを向いているか」「この人は迷っているのではないか」を、周囲の状況や人の仕草から瞬時に判断しなければなりません。相手が話し始めるのを待つのではなく、自ら空気を読んで動く。この「能動的な知能」は指示待ちをする現在の生成AIとは比べ物にならないほど、高度で実直な技術の積み重ねが必要です。
馬場: 例えば調剤薬局の受付では、手順がわからず立ち止まっている方にAI自ら声をかけ、正しい手続きを行うサポートをする必要があります。中には「昨日も来たから保険証の提出は不要だろう」と手順を飛ばそうとする方もいます。そこでAIがただ一律に「提出をお願いしています」と伝えるのではなく、相手の主張を汲み取った上で納得感のある説明を行い、正しい手続きへと導く。大阪大学と磨き上げてきたのは、こうした「状況に応じた高度な対人能力」なのです。
【CASE:薬急便 薬局受付AIエージェント(株式会社MG-DX)】
ロボットやCGアバターなどのAIエージェントが、処方せんの回収やジェネリック医薬品の希望確認、マイナ保険証の案内などの受付業務を実施。全国の調剤薬局等で導入が進むこのシステムは、映像認識によって患者さんの迷いを察知し、適切なタイミングで声がけを行います。研究成果を「人手不足が課題となる現場」に最適化させることで、人手不足の解消と待機時間の短縮という社会課題の解決を、現在進行形で実現しています。
「フィジカルAI」ブームの先へ。当社が狙うのは「接客に特化した頭脳」
― 最近、物流や工場で働く「フィジカルAI(体を持つロボット)」が世界的に注目されていますが、当社の立ち位置はどこにあるのでしょうか。
馬場: おっしゃる通り、海外勢が開発するロボットでは物理的な身体能力が飛躍的に進化しています。バク転のようなアクロバティックな動きから、複雑な資材運搬まで、ハードウェアの進歩には目を見張るものがありますね。それに対し、私たちが約10年前から一貫して追及しているのは、「体」そのものではなく、対人コミュニケーションを司る知能、つまり「接客に特化した頭脳(Escort AI)」です。
私たちは2017年に大阪大学の石黒研究室と共同研究講座を立ち上げました。「ロボットが接客することができたら世界は変わる」と考えて「接客」という領域でロボットやAIエージェントの知能を研究しています。実現すれば、労働人口減少による人手不足や感情労働に起因する離職、カスタマーハラスメントといった日本が直面している深刻な社会課題を根本から解決できる可能性があります。
ただ、接客という仕事は、業務の深い専門知識だけでなく、その場の空気や相手の反応といった「人間特有の複雑性」への適応が求められます。単に高性能なロボットに汎用AIを繋げるだけで解決できるほど、甘い世界ではありません。
「何に困っているのか」「いつ話しかけるべきか」を察する能力は、長年の「人間理解」に関する知見やデータがなければ構築できません。私たちは「体」を作るロボットメーカーではなく、あらゆるロボットやデバイスに、熟練スタッフのような「察する頭脳」を実装するチームなのです。
「最先端の理論」×「泥臭い現場実装」。世界をリードする研究を支える、独自の開発サイクル
― 理論の追求にとどまらず、社会実装までを一貫して行える当社ならではの組織体制について教えてください。
岡藤: 私たちの組織は、先端研究を担う「Agent Research」と、その社会実装を担う「Agent Development」という2つの専門チームが、表裏一体となって動いているのが大きな特徴です。
私が率いる「Agent Research」は、社会実装を見据えつつ、理論や技術を追求する専門組織です。理論の探究に特化しながらも、常に現場への適応を意識した研究サイクルを回しており、継続的に世界レベルの成果を創出しています。直近1年でもIROS、HRI、CHIといったロボティクスやHCI領域の世界トップカンファレンスに複数の論文が採択されています。今年の3月に開催された「HRI 2026」では、採択率約20%という非常に狭き門の中でも3本の論文が採択され、さらには1本の論文がHonorable Mention(投稿された論文の上位3パーセントに与えられる賞)も受賞いたしました。これは国内の大学や企業の中でもトップクラスの実績です。世界最先端の研究者たちからのフィードバックや知見から常に技術をアップデートし続けていることが、私たちの強みの源泉です。
― 国立研究開発法人科学技術振興機構(JST)の報告書でも「HRI領域でサイバーエージェントの活躍が目立っている」と記載されてましたね。
馬場:この世界トップレベルの理論を、「現場で本当に動く形」に落とし込むのが、私たちDevelopmentチームの役割です。どんなに優れた理論や知見があっても、限られた環境でしか再現しないのであれば、社会に実装することは不可能です。現場の店舗には高価な機材は置けませんし、クラウド依存では通信遅延などで接客の「間」が崩れてしまいます。
だからこそ、私たちはAIモデルを極限まで軽量化し、現地のPCでもサクサク動くように最適化しています。最先端の理論を、制約の多い実環境へいかに適合させるか。この積み重ねが、当社の社会実装を支える確かな土台となっています。
モデルの追求に加え、当社の大きな強みとなっているのが、現場からのみ得られる「質の高い独自データ」を保有している点にあります。開発者が自ら現場に潜り込み、泥臭くデータを収集し、それらのデータを活用した実装を行う。この「現場実装への執念」が、私たちの開発サイクルの要にあります。
技術統合と暗黙知のデータ化。接客のプロから、AIに“おもてなし”を宿す挑戦
― 単に質問に答えるだけのAIなら想像がつきますが、「人間らしい接客」をAIで再現し、「使えるサービス」へと昇華させるためには、どのようなアプローチが必要なのでしょうか。
岡藤:本当の意味で「人間らしい接客」を自動化するには、単に言葉を返す対話システムだけでは不十分です。ノイズ環境下でも正確に聞き取れる「音声認識」、自然な対話の「間」を作る「対話制御」、相手の表情やわずかな動きを察する「映像認識」、そして現場で自ら振る舞いを最適化していく「行動学習」。これら多層的な技術が高度に統合されて初めて、接客は成立します。
私たちは、この複雑な課題を自分たちのチームで抱え込むのではなく、アカデミアや各領域のスペシャリストと手を取り合うオープンな連携体制で解決に挑んでいます。
馬場: 例えば、接客において最も重要な「対話の自然なタイミング」の研究では、内閣府が推進するムーンショット型研究開発事業の一環として、この分野の第一人者である京都大学の井上昂治先生と連携しています。また、ユーザーの視線や仕草といった機微を捉える「映像認識」や、現場での試行錯誤から自ら成長する「行動学習」においては、AI Lab内の各専門チームと密に連携しています。
岡藤: そして、この統合された接客の頭脳に「おもてなしの心」を宿らせるのが、データに対する「接客のエキスパートによるアノテーション」です。現場で収集した膨大な生データに対して、「この状況では、こう振る舞うのが正解」という設計を研究者が行うのではなく、長年接客業に携わってきたプロの知見を一つひとつ紐付けていく。現在は、このプロセスの構築に注力しています。
「研究領域を超えた技術統合」と「現場の暗黙知のデータ化」。この両輪が揃うことで、汎用的なAIでは到達できない、当社の強みである「痒い所に手が届く接客」が実現するのです。
あらゆるデバイスを「優秀な接客員」へ。形に縛られないAIの未来
― 最後に、これからの展望についてお聞かせください。
馬場: 物理的な体を持つロボットはもちろん、画面の中で微笑むアバター、あるいは店舗に置かれたタブレット端末。どんなハードウェアであっても、私たちの「頭脳」を搭載すれば、そこが一流の接客窓口になる。私たちが目指しているのは、まさにそうした世界です。
岡藤: これは、世界中で進化している多様な「フィジカルAI(体)」との共生が可能であることを意味します。他社が創り上げた素晴らしいハードウェアという「体」に、私たちが鍛え上げた「接客の頭脳」をインストールする。そんな共創の形も一つの大きな展望です。
馬場: 調剤薬局での実績をさらに積みつつ、今後はより複雑で大型な商業施設の総合受付など、活躍の場を広げていく予定です。深刻な人手不足という社会課題に対し、どんな場所でも「その人の事情を汲んだ適切な対応」を提供できるインフラを届ける。それこそが、国内最先端のAI開発企業としての当社の使命だと考えています。
記事ランキング
-
1
FC町田ゼルビアと挑む、スポーツテックの最前線 ~エンジニアが「一緒に戦うチ...
FC町田ゼルビアと挑む、スポーツテックの最前線 ~エンジニアが「一緒に戦うチーム」になるまで~
FC町田ゼルビアと挑む、スポーツテックの最前線 ~エンジニア...
-
2
全社のAI活用レベルを可視化して底上げする、サイバーエージェント流「AI番...
全社のAI活用レベルを可視化して底上げする、サイバーエージェント流「AI番付」とは
全社のAI活用レベルを可視化して底上げする、サイバーエージ...
-
3
制約をデザインの飛躍に変える。色部義昭と探る「ビジュアルデザインができること」
制約をデザインの飛躍に変える。色部義昭と探る「ビジュアルデザインができること」
制約をデザインの飛躍に変える。色部義昭と探る「ビジュアルデ...
-
4
Cypicとサイバーエージェントが描くアニメづくりの展望―両社リーダーが語...
Cypicとサイバーエージェントが描くアニメづくりの展望―両社リーダーが語る、新体制での挑戦
Cypicとサイバーエージェントが描くアニメづくりの展望―...
制約をデザインの飛躍に変える。色部義昭と探る「ビジュアルデザインができること」
~基礎力強化プログラム第三弾「ビジュアルデザイン講座」~
社内クリエイターの育成を目的とした基礎力強化プログラムの第三弾として、日本デザインセンターの色部義昭氏を講師に迎え、「ビジュアルデザインができること」をテーマに特別講義を実施しました。当日はグループ全体から130名のクリエイターが参加しました。
デッサン、そして美術理論と続いてきた本プログラム。第三弾では、より現場に近い視点を学ぶ機会に焦点を当てています。
ネット上にあふれる「正解」に頼るのではなく、現場の文脈や条件から発想を生み出すにはどうすればよいのか。プログラムを設計した前澤との対話から、ビジュアルデザインの本質に迫ります。