プレスリリース

AI Lab、コンピュータ・アニメーション分野のトップカンファレンス「SCA2022」にて主著論文採択― デジタルヒューマンの身振りスタイルの転移手法を提案 ―

広告｜2022年9月 8日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、AI技術の研究開発組織「AI Lab」において、クロスアポイントメント制度※1により研究員を兼務する栗山繁（豊橋技術科学大学教授）による主著論文が、コンピュータ・アニメーション分野の国際会議「SCA 2022（ACM SIGGRAPH/ Eurographics Symposium on Computer Animation 2022）」※2に採択されたことをお知らせいたします。なお、本論文は「AI Lab」研究員の武富貴史、武笠知幸ならびに東京都立大学の向井智彦准教授による共同成果となります。

「SCA」は世界中の研究者によって毎年開催される、コンピュータ・グラフィックスのアニメーション技術の分野において最も権威ある国際会議です。このたび採択された本論文は、2022年9月に英国のDurham大学で口頭発表を行うほか、著名な学術雑誌「Computer Graphics Forum」※3に掲載される予定です。

■背景
近年、インターネット広告市場の急速な成長に伴い、広告効果を最大化することを目的に、AI技術を活用したクリエイティブ制作や運用の効率化が注目されています。「AI Lab」では、クリエイティブ領域における様々な技術課題に対して、大学・学術機関との産学連携強化や、クロスアポイントメント制度等の活用により、幅広い技術分野の研究・開発に注力しています。

なかでも、コンピュータ・グラフィックス分野の研究チームでは「デジタルヒューマン研究センター」を立ち上げCG研究を強化するほか、当社が提供する著名人の「分身」となるデジタルツインをキャスティングするサービス「デジタルツインレーベル」の公式3DCGモデル制作の研究開発を担当するなど、デジタルヒューマン・コンテンツの制作に関わる研究開発および社会実装に取り組んでいます。

■論文の概要

「Context-based style transfer of tokenized gestures」
Shigeru Kuriyama, Tomohiko Mukai, Takafumi Taketomi, Tomoyuki Mukasa
著者：栗山繁（サイバーエージェント／豊橋技術科学大学）・向井智彦（東京都立大学）・武富貴史（サイバーエージェント）・武笠知幸（サイバーエージェント）

本研究は、メタバース等の仮想空間において、アバターとして知られる仮想的な人物の振る舞いの表現力を豊かにし、さまざまな業種において効果の高い、仮想空間内でのコミュニケーション手段を提供することを目的としています。

アバターを介したメタバース内でのコミュニケーションにおいては、ユーザーはゲームパッドや特別な３次元入力装置を用いてジェスチャーを生成していますが、入力装置の精度や自由度の欠如により、意図や感情を正確に伝えられる様な精妙な身振りや手振りを表現することはできません。また、メタバースにおいては自身の姿形とは異なる「化身」を用いて異なる感覚で対話できることが最大の魅力である一方、身体の動きに対しても同様な表現力を提供する技術が求められています。

しかし、ニューラルネットワークを用いた仮想人間の動作を生成する従来手法では、安定的に運動を生成できるものの、その個性的な特徴（スタイル）を精緻に表現することには限界がありました。

このような背景のもと、本研究では従来手法で用いられてきた自己回帰モデルではなく、画像を言語的に扱うスタイル転移の手法をジャスチャー動作に応用することで、これまで困難であった「ジェスチャーの個性的な特徴を通常の動きに転移する」技術を開発しました。
この技術では、プロの役者によって演じられた化身用の動作データ（スタイル素材）を、ユーザーの動きの文脈（内容素材）に沿って区分的に実時間で当てはめます。この技術により、メタバース空間でのコミュニケーションの表現力が豊かになるとともに、広告の訴求力も高められます。

■手法解説
以下の動画で、本手法による身振りのスタイル特徴の転移例を示します。
ユーザーが伝えたい動きを含む身振りのデータ（内容素材）を、個性的な動きの特徴を含む身振りのデータ（スタイル素材）が参照することで、その意味内容を失わない様に再構成されています。以下の動画ではその結果を示します。

＜動画例1＞

本動画では、「内容素材（解説をする動作）」を「スタイル素材（歩きながら解説をする大きな動作）」が参照を行うことで、スタイル素材の動作が再構成されています。こちらは双方の素材が発話（動画内のセリフ）に合わせて演じられたものを使用しています。
https://www.youtube.com/watch?v=BXPQSju21EE

＜動画例2＞

本動画では、動画例1と同様に「内容素材（解説をする動作）」を「スタイル素材」が参照を行い、スタイル素材の動作が再構成されています。
この時、スタイル素材の動作は発話から生成されたものではない激しい動作ですが、安定的な変換ができていることから、あらゆる組み合わせが可能なことを示しています。

※本動画とは反対に、「激しい動きをする内容素材」を「動きの少ないスタイル素材」が参照することで、控えめな動作を再構成すること（関係性を逆転して、個性的な動きを通常の動きに変換すること）も可能です。
https://www.youtube.com/watch?v=4_3e5EPtEbY

＜動画例3＞

本動画では、「内容素材（解説をする動作）」を「スタイル素材（ロボット的な動きを演じた動作）」が参照を行い、その外観に即した身振りへと変換されている事例を示します。メタバース空間で化身となるアバターの動きを、その外観に即した様にリアルタイムで変換する事が可能です。
https://www.youtube.com/watch?v=5dgOqVLOPTk

本提案手法のアピールポイントは、以下の様に要約されます。

●自然言語分野で開発された深層学習モデルを、動作スタイルの転移に導入
・従来では困難であった個性的な動きの転移を実現しています
・複雑で動的変化の激しい身振りにも対応できます

●変換したいデータに対する再学習と、スタイル分類や発話等の情報が不要
・学術用語では「教師無しのゼロショット学習」に相当します
・転移に用いる身振りの素材は、あらゆる組み合わせが可能です

●軽量なデータと計算時間での学習と変換
・学習にGPUが不要であり、実時間での変換にも適しています

注：
・キャラクタの形状データは mixamo のフリー素材（www.mixamo.com）を利用
・CGアニメーションの作成には Three.js（threejs.org）を利用
・アフレコの発話内容はボイスサンプル集（sound-emotion.jp/voice/voice-sample）を利用
・合成音声の発話内容はサンプル素材（shopjapantest.shop-pro.jp）の内容を編集
・動画例２と３におけるスタイル転移後のアフレコ音声は WavePad で変換

■今後
本研究の成果は、当社で取り組む「広告に用いるデジタルヒューマン」の演出技術として、関連するコンテンツの制作環境の効率化等に繋がることが期待できます。
「AI Lab」は今後もAI・CG技術を用いたクリエイティブ制作や研究開発を推進するとともに、フォトグラメトリー技術やデジタルヒューマン等CG制作を強みとする「株式会社CyberHuman Productions」やメタバース空間における企業の販促活動を支援する「株式会社CyberMetaverse Productions」等と共同開発を行い、デジタル空間だからこそ作ることができる表現・価値創造に挑戦してまいります。

* 本研究はJSPS科研費 JP19H04231 の助成を受けたものです。

※1 クロスアポイントメント制度
※2 SCA 2022（ACM SIGGRAPH/ Eurographics Symposium on Computer Animation 2022）
※3 Computer Graphics Forum