AI Lab、音声・言語処理分野のトップカンファレンス「INTERSPEECH 2026」にて4本の論文採択

AI ｜2026年6月30日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役社長：山内隆裕、東証プライム市場：証券コード4751）は、人工知能技術の研究開発組織「AI Lab」に所属する村田雅人、宮崎晃一、郡山知樹、関翔悟、李莉、小口純矢、ならびに「AI Lab」リサーチインターンシップ参加者の党少翔氏^※1による4本の論文が、音声言語処理分野の国際会議「INTERSPEECH 2026」に採択されたことをお知らせいたします。

「INTERSPEECH」はInternational Speech Communication Association（ISCA）が主催する、音声言語処理分野における世界最大規模の国際会議の一つです。27回目の開催となる今回は2026年9月にオーストラリア・シドニーで開催され、採択された論文の発表を予定しています。

■背景
AI技術の発展に伴い、音声を通じた自然なコミュニケーションや高品質な音声コンテンツの自動生成への期待が急速に高まっています。音声・音響分野の研究に取り組むAudioチームでは著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な完全自動対話の実現に向け、研究に取り組んでいます。

■論文概要

「Exploring Pre-training Benefits on Phoneme Addition through Fine-tuning in Speech Synthesis」
著者：村田雅人（サイバーエージェント AI Lab）、宮崎晃一（サイバーエージェント AI Lab）、郡山知樹（サイバーエージェント AI Lab）、戸田智基（名古屋大学）

音声合成モデルの構築において対象言語の学習データが少ない場合、英語などの主要言語で学習したモデルをもとに、新しい言語へ適応させる転移学習が広く使われています。しかし、この転移学習時に元のモデルが持つ発音の知識が、対象言語に含まれる新しい音素の習得にどの程度役立つのかは、これまで十分に解明されていませんでした。本研究では、大規模言語モデル（LLM）によるシミュレーション実験と、英語から日本語への実音声を用いた言語間転移実験を通じ、音素追加時における事前学習の影響を検証しました。
その結果、転移学習は合成音声の自然さを向上させる一方で、元のモデルが持つ発音知識は、新しい音素の習得には大きく寄与しないことが明らかになりました。
本成果は、少量データの際の音声合成モデルのより効率的な構築設計につながると期待されます。

「Benchmarking Large Language Models for Grapheme-to-Phoneme Conversion: A Japanese Case Study」
著者：郡山知樹（サイバーエージェント AI Lab）

日本語テキスト音声合成システムにおいて、入力された漢字や数字を正しい発音へと変換する書記素音素変換（G2P）技術は、誤読のない安定した音声を出力するために不可欠な基礎技術です。この変換タスクにおいて、近年では高い言語処理能力を持つLLMの活用が期待されています。本研究では、日本語の変換タスクにおいて30以上のLLMを対象とした初の大規模なベンチマーク評価を実施しました。
検証の結果、日本語に適したLLMで文章の構造を分析してから読みがなへと変換する「解析モード」のアプローチが効果的であり、最適なLLMでは読み誤り率を従来の半分以下となる0.52%未満にまで抑えられることを実証しました。さらに、このLLMが予測した読みがなを音声合成システムに投入することで、音声を直接生成するテキスト音声合成モデルよりも読み誤りが減少することを示しており、今後の高精度な音声合成システム開発における重要な設計指針を提示しました。

「Improving DF-Conformer Using Hydra For High-Fidelity Generative Speech Enhancement on Discrete Codec Token」
著者：関翔悟（サイバーエージェント AI Lab）、党少翔（名古屋大学）、李莉（サイバーエージェント AI Lab）

音声から雑音を取り除いて高品質な音声を届ける音声強調は、音声配信サービスなどで広く求められる重要技術です。従来は計算効率を優先して処理を簡略化していたため、音声全体のつながりを捉えきれず、音質に限界があるという課題がありました。本研究では、既存モデルの内部構造を分析して原因を明らかにするとともに、計算コストを抑えつつ時系列データを高精度に処理できるアーキテクチャ「Hydra」を導入する手法を提案しました。
実験結果では従来の主要モデルを上回る音質を実現できることを示し、長時間音声に対しても高品質な音声強調を実現できることを実証しました。

「Instantaneous Pitch Estimation via Wave-U-Net-Based Fundamental Waveform Enhancement」
著者：小口純矢（サイバーエージェント AI Lab）、郡山知樹（サイバーエージェント AI Lab）

話し方の抑揚や歌唱における高度な歌い方など、声の高さの急激な変化を緻密に分析する「瞬時ピッチ推定」は、音声分析において重要な役割を担っています。しかし従来の一般的な手法では、ノイズや倍音が含まれる複雑な音声信号から基本波形を切り出す処理が難しく、ノイズが少しでも残ったり、誤ってピッチとは異なる倍音を切り出したりすると推定精度が著しく低下するという課題がありました。本研究では、この課題を解決するため、特定の音の成分だけを綺麗に抽出する処理を音声強調技術の問題として捉え直し、ディープラーニングモデルである「Wave-U-Net」に音声信号から基本波形のみを抽出させる新たな手法を開発しました。
実験の結果、提案手法は従来の信号処理に基づく手法を上回り、通常の話し声や歌声に加え、楽器の音やノイズで劣化した音声など、多様で複雑な音源に対しても正確かつ安定して音の高さを推定できることを実証しました。

■今後
今回の研究成果は、当社が提供する音声を使用した動画広告の自動生成・クリエイティブ制作や、音声アシスタントならびにコールセンター自動化などの各事業領域への活用を目指しております。「AI Lab」は今後もビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。

※1 名古屋大学所属 2024/11/06から2025/8/29までリサーチインターンシップに参加