「著名人のデジタルツインを実現」から始まった、音声合成のマーケットインから社会実装への道のり

技術・デザイン

当社には、特定の分野に抜きん出た知識とスキルを持ち、第一人者として実績を上げているエンジニアを選出する「Developer Experts制度」があります。その次世代版である「Next Experts」として選出した12名のエンジニア※は、各専門領域において培った知見をサイバーエージェントグループ全体に還元すべく、技術力の向上に努めています。
音声合成・声質変換・音声認識を活用した対話研究とその応用に取り組む音声技術分野の「Next Experts」である吉本 暁文に、広告プロダクトや社会課題への実装、直面した技術的な壁とその突破口を聞きました。

※2023年10月時点

Profile

  • 吉本 暁文
    AI事業本部 リサーチサイエンティスト
    2017年新卒入社後、自然言語処理を応用した広告製品開発に従事。2020年より音声研究に着手し、現在は音声合成・声質変換・音声認識に関する研究開発を中心にしつつ、対話研究や応用領域の拡大に取り組んでいる。

「これがサイバーエージェントらしい動きのはずだ!」で始まった音声合成へのチャレンジ

── 入社当時の吉本さんの業務内容を教えてください

2017年に新卒としてサイバーエージェントへ入社し、MLエンジニアとしてAI事業本部に配属されました。当時のAI事業本部は、DSPやSSPなど多数の広告配信サービスを開発/運用をしており、アドベリフィケーション(Ad Verification)に関する広告プロダクトの開発に関わる事になりました。

アドベリフィケーションとは、広告の特徴をもとに、企業イメージやブランディングに適したメディア媒体に配信するための広告プロダクトです。企業ブランドに沿わないサイトへの掲載回避や、アドフラウド(広告詐欺)といったリスクを検知することで、安全な広告配信を可能とするプロダクトです。出稿先メディアのコンテンツをテキスト解析する必要があり、そこで自然言語処理が活用されていました。

今でこそ、音声技術分野のNext Expertsとして評価されていますが、学生時代からの専門は自然言語処理で、博士課程でも自然言語処理の研究をしていました。そのプロダクトへの配属も、学生時代のバックグラウンドを加味しての適材適所配属となったようです。

音声合成に関しては、学部生の時から興味を持っていて、HMM全盛の時代に趣味で自分の音響モデルを作ろうと独学で少し試行錯誤したこともありましたが、入力から出力までニューラルネットでほとんど完結できる今の時代と比べると当時は複雑で、公開されている実装も多くなく、専門知識がないと作れなかったので学部生の時に一旦諦めた経験がありました。

── そこから音声合成に関わるようになった経緯を教えてください

当時のAI事業本部では、「極予測シリーズ」をはじめクリエイティブ制作においてAIの活用が進んでいました。ある日、 AIクリエイティブDiv. 統括である毛利 真崇が「デジタルツインレーベル」の構想を社内で共有しました。デジタルツインとは、現実世界で収集したデータを活用し、コンピューター上に双子のように再現するテクノロジーです。「デジタルツインレーベル」の構想とは、著名人のデジタルツインをキャスティングするサービスで、芸能事務所や著名人向けに、分身となる公式3DCGモデルを制作・管理し、デジタル空間でのタレント活動を促進するというものでした。

2020年には、CG研究チームが取り組んでいた社員をモデルにしたデジタルツインのプロトタイプが完成に近づいていました。その一方「著名人の音声をどう再現するか?」という技術的な議論がされているのを、AI事業本部のSlackチャンネルで見かけました。

当時、私は極予測TDで学習効率の改善に取り組んでいたのですが、CGチームがデジタルツインを実現するCG技術について、正解がない中、試行錯誤している様子を見ているうちに「これは音声合成にチャレンジするチャンスでは!?」と思いたち、毛利に「『デジタルツインレーベル』の音声周りの開発をやってみたいです!」とメッセージを送りました。

── チャンスが来た時に自分から手を挙げるのは、サイバーエージェントらしいですね。

はい。その時は「これがサイバーエージェントらしい動きのはずだ!」と思って、毛利にメッセージを送ったことを覚えています。毛利からは「ぜひ協力してほしい」と返信をもらい「やっぱり、この動き方がサイバーエージェントのカルチャーだ」と実感しました。

こうして、AI Labに異動し、Audio領域の研究チームを立ち上げ「デジタルツインレーベル」の音声合成に関わるようになったのが、今に至るきっかけです。
 

── 著名人の音声を再現する過程で、技術的に工夫したポイントを教えてください。

スケジュールが多忙な著名人の声を、少ないデータで再現するには課題がたくさんありました。要件を考えると、一番使うことになるスタイルでも、純粋なナレーションよりは表現力が必要ですし、それ以外のスタイルも収録するので、一つのスタイルあたりのデータは結構少なくなります。それでも声質や一つのスタイルの大体の表現は実現できるのですが、音の高さの変化は大量のデータがあった方が安定します。

そんな中、「デジタルツインレーベル」公式デジタルツインの冨永愛さんのモデルに関して、本人らしさを飛躍的に向上できたのがピッチ推定です。大勢の社員に、音声データの提供等で協力してもらうことで得た、大規模事前学習のおかげで、精度高いピッチ推定が可能になり、誰が聞いても「冨永愛さんの声だ!」と認識できる品質まで向上しました。音響モデルや機械学習だけでは至れないクオリティは、まさにチームで追い求めた成果だったと思います。

また、収録する音声自体の録音状況にも工夫をしていて、ノイズが極力発生しない環境での録音など、その時点でのベストな環境での音声データが取得できたのも、クオリティに大きく影響したポイントです。

デジタルツイン冨永愛さんの新しいチャレンジ『地産地消でつくるエシカルな住まい』編

音声合成のマーケットインから社会実装まで

── 他にはどんなプロジェクトに関わっていますか?

その後、サイバーエージェントのCGナビゲーター「Akane Takiyama」の制作で、ABEMAアナウンサー瀧山あかねさんの音声合成に関わりました。

持続的成長を続けるサイバーエージェントの 『変化対応力』

また、子会社であるAI Shiftの「AI Messenger Voicebot」で、電話対応業務のDX化を実現するために、予約や注文受付、情報照会などで必要になる音声技術についてAI Shiftメンバーと協力しています。

── プロダクトへの導入が増える中、今後の技術的な課題はどんな点にありますか?

音声合成を、プロダクトに効果的かつ効率的に組み込む事が、目下の課題です。音声合成と聞くと、音声の再現度や音質が注目されがちですが、プロダクト導入後のワークフローや運用方法を並行して考える必要があると考えています。

「デジタルツインレーベル」のケースでは、著名人や役者という、視聴者が日頃テレビや映像作品を通じて聞いている声だからこそ、違和感なく聴き入れられる必要があります。そのため、実際の発話に忠実なアクセントラベルの付与や、音声モデルの調整、感情表現に沿った細かいピッチコントロールなどを調整し、著名人本人の声に限りなく近づける事を目指しています。

詳しくは「CyberAgent Developer Conference 2023」で紹介しているので、興味を持たれた方はぜひ御覧ください。

音声合成の発音正確性と自然性【CADC2023】

このように、著名人の音声合成ワークフローでは、テキストを入力すれば、合成された音声が全自動で返ってくるようには設計していません。出力時の精度に品質不足があった場合、どの工程に問題があったのかの検証と改善をするためです。

ただし、現在のワークフローのままではビジネス的にスケールが難しいのは明白です。

── ビジネス的にスケール可能にするためには何が必要でしょうか?

例えば「デジタルツインレーベル」の中長期的なビジョンは「数百人の著名人をキャスティングできる事務所」を作り上げることです。この規模でデジタルツインの運用となると、1人1人をチューニングして音声の再現をするという方法には限界があります。

そこで、機械学習や音声合成の知識がなくても、シーンやシチュエーションに応じて、著名人の声を生成できる機能や、新しいワークフローを構築中です。

こういったワークフロー構築には、MLエンジニアだからこそ提案できる事が多々あり、MLエンジニアがプロダクトに機械学習やAIを組み込む事で、ビジネス的なインパクトを出す事が可能になると思っています。私自身は研究者とMLエンジニアを兼ねながら、ユーザーやマーケットが何を求めているのかにコミットしていきたいと思っています。

AI Labでは、学術貢献はもちろんのこと、我々の研究成果が「顧客満足度の向上や店舗売上の向上にどれだけ貢献するか」といった社会実装にも注力しています。同じAI Labメンバーの兵頭の記事にあるような、ビジネスへのインパクトや、行政と連携したエッジAIの社会実装は、その最たる例ではないでしょうか。

── そのためには、ご自分の専門分野以外の視野も求められそうですね。

最近では、AI事業本部の「GovTech開発センター」と連携した案件にも関わりました。

熊本に在住する難病を抱えた方からのご依頼で、ご本人の音声を収録した上で、音声合成を実現するプロジェクトに関わりました。

その際、常時クラウド上のGPUサーバーにネットワークアクセスできないという環境や、運用中の障害対応やクラウド維持費という課題に直面しました。そこで、クラウド上のGPUサーバーを用いる処理の代替として、iPhoneの専用アクセラレーターを活用したiPhoneアプリを開発し、同等の機能をもった音声合成を実行可能にしました。

このプロジェクトによって、発話に問題やコンプレックスを抱える方がコミュニケーションを取る手段として、音声合成がその一助になる事を実感しました。それだけでなく、利用する方がどういった環境で使うのか、日常生活の中にどのようにAIを組み込み、技術で生活のサポートをするにはどうしたら良いかを考える機会にもなりました。

音声合成のNext Expertsが向き合う、次の技術的チャレンジ

── サイバーエージェントの強みは何だと思いますか?

「音声合成の精度向上」と聞くと、音響モデルやボコーダーといったソフトウェアの側面に注目されがちですが、実は録音環境や録音機材がそのクオリティを大きく左右します。ノイズや環境音が極力少ない場所で、高性能な録音機材で収録した音源が重要になってきます。

2023年の9月に、新しいクリエイティブ制作スタジオ「極AIお台場スタジオ」をオープンしました。AI・CG技術を活用しながら広告効果と映像クオリティを追求するスタジオがコンセプトで、音声合成も重要な要素となっていて、音声収録用の専門スタジオも設けています。

極AIお台場スタジオ

ビジネスの規模や可能性に対して、その投資対効果を見据えた上で、大規模な設備投資を迅速に進めるのがサイバーエージェントの強みだと思います。

また、今回のバーチャルスタジオ設計でも、様々な職種の人たちが一丸となり作り上げました。ビジネスインパクトを出すために、職種や所属を問わずにチームを組成して、コラボレーションできるのがサイバーエージェントの強みだと思います。

── NEXT Expertsとして今後、どんな事にチャレンジしたいですか?

デバイスを活用した唇の動きや顔の表情を認識する技術に注目しています。音声合成の際に、表情などの視覚的な要素を取り入れることで、従来のテキストを主な入力とする手法よりも、より正確な再現が可能になると考えています。特に、言葉だけでは表現しづらい細かな感情の揺らぎなど、テキスト以外の要素からデータを取得することで、欲しい音声を得るためにより思い通りのデザインができるようになると思われます。

また、専用スタジオで進めている収録データは極めて高品質なもので、これが蓄積されてくると、音声合成の表現力向上はもちろんですが、純粋な音声合成以外にもできることが沢山でてきます。こういった大規模データがあって初めてできるようになる技術への挑戦も、環境の強みが活きるところです。

将来的には、手話のように唇の動きやジェスチャーだけで、意思やメッセージを伝えるツールが開発できるかもしれません。

その際に重要なのは「最先端の技術でこんなことができます!」というプロトタイプ開発で終わらせないことです。その技術を、実際のプロダクトやサービスに組み込み、PDCAを繰り返し、運用と改善につなげ、社会のために役立てることこそが重要だと思っています。

「マーケットニーズや社会課題のために」と一歩でも踏み込んでみると、たちまち直面する技術的な壁。サイバーエージェントが向き合うビジネス的な課題や開拓する分野のハードルが広がるにつれ、その技術的な課題の壁が高くなっている気がします。

だからこそ「その壁をチームでどう乗り越えるか?」に向きあい、果敢に技術的なチャレンジを仕掛けられることが、サイバーエージェントで働く楽しさなのかもしれません。

AI Lab 採用情報

この記事をシェア

オフィシャルブログを見る

記事ランキング

「10年以上蒔いた種が、ようやく花を咲かせてきた」主席エンジニアが語る、セキュリティ対策のあるべき姿

技術・デザイン

2022年より導入した「主席認定制度」において、10年以上当社のセキュリティ強化に真摯に向き合い続けている野渡が、主席エンジニアの1人に選出されました。

経営層、各開発責任者が絶大な信頼を寄せる野渡ですが、主席エンジニア就任時の思いを「10年以上にわたるチームの取り組みを、改めて評価してもらえたようで嬉しい」と語ります。長年セキュリティ領域に携わってきて感じる最近のセキュリティインシデントの傾向や、サイバーエージェントならではのセキュリティ対策のあるべき姿について話を聞きました。

なお、野渡が統括するシステムセキュリティ推進グループについて、詳しくは「『免疫』のようなセキュリティチームを作りたい~主席エンジニアたちが向き合う情報セキュリティ対策~」をご覧ください。

Page Top