プレスリリース

AI Lab、音声・音響信号処理分野のトップカンファレンス「ICASSP 2026」にて2本の論文採択

AI

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役社長:山内隆裕、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」におけるリサーチインターンシップ参加者の山内一輝氏※1、研究員の村田雅人、関翔悟、小口純矢および郡山知樹による論文2本が、音声・音響信号処理分野の国際会議「ICASSP 2026」※2に採択されたことをお知らせいたします。
「ICASSP」は、IEEE Signal Processing Societyが主催する、音声・音響信号処理およびその関連分野において最も権威ある国際会議のひとつです。このたび採択された論文は、2026年5月にスペイン・バルセロナで開催される「ICASSP 2026」にて発表予定です。
■背景
近年、機械学習の発展に伴いAI技術を活用した新たな広告クリエイティブの制作やデジタルマーケティングが注目されており、AI Labではそれらの領域におけるさまざまな技術課題に対して、研究領域の幅を広げAI技術の研究・開発に取り組んでいます。

なかでも音声・音響分野の研究を担うAudioチームでは、著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な音声対話の実現を目指した技術開発を推進。 今回採択された2本の論文では、音声認識や音声合成、自動評価指標などの技術精度を一段と高める手法を提案しており、音声技術を活用した次世代の広告表現や各種サービスへのさらなる貢献が期待されます。

■論文の概要

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens」 
著者:山内一輝(東京大学大学院)、村田雅人(サイバーエージェント AI Lab)、関翔悟(サイバーエージェント AI Lab)
生成的音声強調(Generative Speech Enhancement)は、背景雑音や残響などによって劣化した音声を高品質化する技術です。この技術は、音コンテンツのデータキュレーションにおいて重要な役割を果たす一方で、ノイズ除去の過程で「音素の欠落」や「話者性の不一致」といった特有のハルシネーションを引き起こすリスクがありました。

本研究では、モデルが音声を出力する際の確率分布に基づく信頼度スコアを利用し、ハルシネーションなどの不適切な出力をフィルタリングする手法を提案しました。実験の結果、従来のフィルタリング手法では検知が困難であったハルシネーションエラーを、本手法が効果的に検出できることを示しました。これにより、実環境下のノイズを含む膨大な音声資源から、信頼性の高い学習データセットを効率的に構築することが可能になります。


Voting-based Pitch Estimation with Temporal and Frequential Alignment and Correlation Aware Selection
著者:小口純矢(サイバーエージェント AI Lab)、郡山知樹(サイバーエージェント AI Lab)
音声・音楽分析の根幹をなす「音の高さ(基本周波数)」の推定において、複数のモデルの結果を統合する「投票方式」は経験的に有効とされてきましたが、その理論的な裏付けは十分ではありませんでした。
本研究では、複数手法の統合が誤差分散を低減することを理論的に解明しました。
さらに実用性を高めるため、各モデル間の微細な時間・周波数のズレを補正するアライメント手法によって推定精度を向上させたほか、誤差の相関が低い推定器を選別することで正解データが得られない状況でも推定精度の高い組み合わせの構築を可能にしました。

これにより、話し声だけでなく歌声や楽器音といった多様な信号において、従来の最新手法を上回る極めて精緻な解析が可能となりました。
特にノイズの多い過酷な環境下でも安定した推定が可能になるため、歌声変換やアクセント推定といった実社会の様々なシーンでの応用が期待されます。
■今後
AI Labでは、これらの研究成果を動画広告制作における音声合成技術の向上や、バーチャルヒューマンをはじめとする高品質なコンテンツ生成支援プロダクトへ応用していきます。

今後もビジネスや社会課題の解決に資するAI技術のプロダクト実装を推進するとともに、技術および学術のさらなる発展に貢献するべく、研究開発に取り組んでまいります。



※1 東京大学大学院所属 2025年7月2日よりリサーチインターンシップに参加 
※2「ICASSP 2026」 2026 IEEE International Conference on Acoustics, Speech, and Signal Processing