プレスリリース
AI Lab、音声・言語処理分野のトップカンファレンス「INTERSPEECH 2025」にて6本の論文採択

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田 晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」に所属する研究員の山本 克彦、村田 雅人ならびに「AI Lab」リサーチインターンシップ参加者の党 少翔氏※1、He Jiajun氏※2、胡 鉦弘氏※3らによる論文6本が、音声言語処理分野の国際会議「INTERSPEECH 2025」※4に採択されたことをお知らせいたします。「AI Lab」において、本会議での論文採択は2年連続となります。
「INTERSPEECH」はInternational Speech Communication Association(ISCA)が主催する音声言語処理分野における世界最大規模の国際会議で、今回が26回目の開催となります。このたび採択された論文は、2025年8月にオランダのロッテルダムで開催される「INTERSPEECH 2025」での発表を予定しています。
「INTERSPEECH」はInternational Speech Communication Association(ISCA)が主催する音声言語処理分野における世界最大規模の国際会議で、今回が26回目の開催となります。このたび採択された論文は、2025年8月にオランダのロッテルダムで開催される「INTERSPEECH 2025」での発表を予定しています。
■背景
近年、機械学習の発展に伴いAI技術を活用した新たな広告クリエイティブの制作やデジタルマーケティングが注目されており、AI Labではそれらの領域におけるさまざまな技術課題に対して、研究領域の幅を広げAI技術の研究・開発に取り組んでいます。
AI Labの音声・音響分野の研究に取り組むAudioチームでは著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な音声対話の実現に向けて研究に取り組んでいます。
今回採択された6本の論文では、音声認識や音声合成、自動評価指標などの技術向上により、音声を使用した広告やサービスへの活用が期待されます。
AI Labの音声・音響分野の研究に取り組むAudioチームでは著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な音声対話の実現に向けて研究に取り組んでいます。
今回採択された6本の論文では、音声認識や音声合成、自動評価指標などの技術向上により、音声を使用した広告やサービスへの活用が期待されます。
■論文の概要
「First Analyze Then Enhance: A Task-Aware System for Speech Separation, Denoising, and Dereverberation」
著者:党 少翔(名古屋大学)・李 莉・関 翔悟(サイバーエージェント AI Lab)・工藤 博章(名古屋大学)
「Non-Intrusive Binaural Speech Intelligibility Prediction Using Mamba for Hearing-Impaired Listeners」
著者:山本 克彦・宮崎 晃一(サイバーエージェント AI Lab)
「Speaker-agnostic Emotion Vector for Cross-speaker Emotion Intensity Control」
著者:村田 雅人・宮崎 晃一・郡山 知樹(サイバーエージェント AI Lab)
「Eigenvoice Synthesis based on Model Editing for Speaker Generation」
著者:村田 雅人・宮崎 晃一・郡山 知樹(サイバーエージェント AI Lab)・戸田 智基(名古屋大学)
「CMT-LLM: Context-Aware Multi-Talker ASR Utilizing Large Language Models」
著者:He Jiajun(名古屋大学)・澤田 直輝・宮崎 晃一(サイバーエージェント AI Lab)・戸田 智基(名古屋大学)
「Unifying Listener Scoring Scales: Comparison Learning Framework for Speech Quality Assessment and Continuous Speech Emotion Recognition」
著者:胡 鉦弘(名古屋大学)・安田 裕介(国立情報学研究所/名古屋大学)・吉本 暁文(サイバーエージェント AI Lab)・戸田 智基(名古屋大学)
著者:党 少翔(名古屋大学)・李 莉・関 翔悟(サイバーエージェント AI Lab)・工藤 博章(名古屋大学)
本研究では、録音環境や目的に応じて多岐にわたる音声データの強調方法に対応するため、雑音除去や残響除去、話者分離といった様々な音声強調技術を柔軟に組み合わせられる新しいフレームワークを提案しました。 提案手法は、入力音声に必要な強調の種類を特定する分析器と、それぞれの強調処理を行う強調モジュール群で構成されています。これにより、入力音声データに対して、分析結果に対応した必要な強調処理のみを適用することが可能になります。 本アプローチにより、従来の統一的なモデルと比較して音声強調の性能向上を実現しました。さらに、各強調タスクに特化したモジュールが独立して存在するため、用途に合わせてこれらのモジュールを自由に組み合わせ、最適な音声強調を行うことが期待できます。 |
「Non-Intrusive Binaural Speech Intelligibility Prediction Using Mamba for Hearing-Impaired Listeners」
著者:山本 克彦・宮崎 晃一(サイバーエージェント AI Lab)
難聴者を対象とした音声了解度(音声の聞き取りやすさ)の自動評価指標において、Transformerを用いたモデルが高い予測精度を示していますが、系列長により計算コストが高くなる問題があります。本研究では、時系列データを効率的に分析可能なMambaを音声了解度の予測モデルに導入することを提案しました。Clarity Prediction Challenge 2 (CPC2) データを用いた実験の結果、Mambaを用いた提案手法は、従来のTransformerモデルよりもパラメータ数を抑えながら同等以上の予測性能を達成しました。 |
「Speaker-agnostic Emotion Vector for Cross-speaker Emotion Intensity Control」
著者:村田 雅人・宮崎 晃一・郡山 知樹(サイバーエージェント AI Lab)
目的話者の感情音声なしで様々な強さの感情音声を生成する「クロス話者感情強度制御」において、タスクベクトルベースの従来手法では、元となる一人の話者の感情表現に依存していたため、別話者に適用する際に話者一貫性が損なわれる課題がありました。 本研究では、複数の話者の感情音声を学習させたモデルから、話者非依存の感情ベクトル、つまりどんな話者にも適用できる共通の感情表現を抽出する新しい手法を開発しました。これにより、未知話者の読み上げ参照音声のみを用いて、話者一貫性を維持したまま感情強度を制御できる手法を実現しました。 |
「Eigenvoice Synthesis based on Model Editing for Speaker Generation」
著者:村田 雅人・宮崎 晃一・郡山 知樹(サイバーエージェント AI Lab)・戸田 智基(名古屋大学)
参照音声なしで、学習データに存在しないような人の声を作り出す「話者生成」技術では、様々な特徴を持つ声を安定して作り出す「話者空間」をどう定義するかが大きな課題でした。 本研究では、複数のベース話者モデルと事前学習モデルのパラメータ差分を用いて、様々な声を作り出すための話者空間を定義する新しい手法を提案しました。 この話者空間から新たなモデルパラメータを選び出すだけで、非常に多様な声を生み出すことに成功しました。さらに、この空間内に性別のような声の属性をコントロールできる方向があることも発見し、これにより単に新しい声を作るだけでなく、例えば性別といった声の特徴を意図的に調整できるようになりました。 |
「CMT-LLM: Context-Aware Multi-Talker ASR Utilizing Large Language Models」
著者:He Jiajun(名古屋大学)・澤田 直輝・宮崎 晃一(サイバーエージェント AI Lab)・戸田 智基(名古屋大学)
音声認識技術では、学習データに頻繁に登場しない単語(低頻度語)が認識しづらくなり、特に専門用語などが含まれる音声データでは認識性能が低下する問題があります。さらに、複数の話者が同時に話す重複音声の認識も従来の技術では困難でした。 本研究では、これら二つの課題を同時に解決する統合フレームワークを提案しました。具体的には、認識時に低頻度語リストを入力として与え、大規模言語モデル(LLM)を活用することで、複数話者の重複音声においても低頻度語を高精度に認識できるシステムを開発しました。また、大量の低頻度語リストをそのまま使用すると音声認識精度に悪影響を及ぼすため、二段階のフィルタリング手法を適応し、与えられた音声に関連性の高い単語のみを効率的に抽出して活用しています。 実験の結果、従来手法と比較して大幅な性能向上を達成しました。 |
「Unifying Listener Scoring Scales: Comparison Learning Framework for Speech Quality Assessment and Continuous Speech Emotion Recognition」
著者:胡 鉦弘(名古屋大学)・安田 裕介(国立情報学研究所/名古屋大学)・吉本 暁文(サイバーエージェント AI Lab)・戸田 智基(名古屋大学)
本研究は、音声品質評価 (SQA) と連続音声感情認識 (CSER) における、人間の評価に起因するバイアスを解消する新技術を提案します 。従来の評価は評価者個人の主観に左右され、結果にばらつきが生じるといった課題がありました 。そこで私たちは、音声間の「比較スコア」を活用し、評価者全員に共通する「統一された評価スケール」をモデル化することで、この課題を解決しました 。実験の結果、この新手法は、SQAとCSERの両タスクで予測精度を向上させることを確認しました。 これにより、コールセンターでの感情分析による応対改善や感情豊かな音声の生成など、音声を扱う幅広い分野での活用が期待されます。 |
■今後
これらの研究による音声認識や音声合成、自動評価指標などの技術は、音声を使用した動画広告、音声アシスタントやコールセンター自動化など、様々なビジネスへの活用等が期待されます。
AI Labは今後も、ビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。
※1 名古屋大学所属 2024/11/06よりリサーチインターンシップに参加
※2 名古屋大学所属 2024/08/01よりリサーチインターンシップに参加
※3 名古屋大学所属 2024/08/07よりリサーチインターンシップに参加
※4 Interspeech 2025
AI Labは今後も、ビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。
※1 名古屋大学所属 2024/11/06よりリサーチインターンシップに参加
※2 名古屋大学所属 2024/08/01よりリサーチインターンシップに参加
※3 名古屋大学所属 2024/08/07よりリサーチインターンシップに参加
※4 Interspeech 2025