このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・デザイン 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、音声・音響信号処理分野のトップカンファレンス「ICASSP 2024」にて主著論文採択

-実環境においてより適応性の高い音声強調手法を提案-

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田 晋、東証プライム市場:証券コード4751)は、AI技術の研究開発組織「AI Lab」に所属する研究員の李 莉および関 翔悟らによる主著論文が音声・音響信号処理分野の国際会議「ICASSP 2024」※1に採択されたことをお知らせいたします。

ICASSPは、IEEE Signal Processing Societyが主催する音声・音響信号処理分野における最も権威のある国際会議のひとつで、2024年は49回目の開催となる歴史の長いカンファレンスです。このたび採択された論文は、2024年4月に韓国・ソウルで開催される「ICASSP 2024」にて発表予定です。
■研究背景
近年、機械学習の発展に伴いAI技術を活用した新たな広告クリエイティブの制作やデジタルマーケティングが注目されており、AI Labではそれらの領域におけるさまざまな技術課題に対して、研究領域の幅を広げAI技術の研究・開発に取り組んでいます。

音声分野においては、高い認識性能を誇る音声認識技術や人間の音声と遜色ない音声合成が実現できるようになり、AI Labの音声・音響分野の研究に取り組むAudioチームでは著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な音声対話となる完全自動対話の実現に向けて研究に取り組んでいます。




■論文の概要
本研究ではノイズを除去する深層学習モデルにおいて、正解データ(ノイズのない元画像)がない場合でもノイズが除去できる手法であるNoise2Noise※2という手法を用いて、より実環境において適応性の高い音声強調手法を提案しました。

音声強調の学習には、通常静音環境で収録されたクリーン音声と、これに雑音を重ねた擬似的なノイジー音声のペアデータが多くの場合用いられます。
一方で、人為的に用意されたノイジー音声は騒音環境で収録されるノイジー音声とは異なる性質をもつことから、学習時と実環境での利用時で強調性能の乖離が起こることが報告されており、このギャップを緩和するために、人工的なペアデータのほかに実環境で収録された少量のノイジーデータを利用するRemixIT※3というアプローチが提案されています。
この手法ではペアデータで学習された音声強調モデル(教師モデル)にノイジーデータを入力し、得られた出力を擬似的なクリーン音声としてあらたな音声強調モデルを学習します。
実環境のデータを利用するRemixITは学習時と利用時のギャップを解消しますが、その性能は教師モデルの性能に依存するといった課題がありました。

そこでこの度採択された「Remixed2Remixed: Domain adaptation for speech enhancement by Noise2Noise learning with Remixing」では、Noise2Noiseのアプローチに着目して、ノイジー音声のペアデータ作成に教師モデルを用いることで新たな音声強調モデルを学習する手法を提案しています。

提案手法は、技術評価国際イベント(CHiME7 Task2)のベースラインであるRemixITと比較して高い性能を達成するとともに、教師モデルへの依存を低減することを確認しました。また、提案手法は深層学習のモデルを限定せず応用可能で、より強力なモデル構成を取り入れることでさらなる改善が期待できます。
表1:CHiME7 Task2で提供されている二種類の実録音の学習データセットを用いたベースライン(RemixIT)と提案法の性能比較。10通りの教師モデルを用いた平均性能(Sources-to-distortions ratio: SDR)と標準偏差。 
平均性能(SDR) が高いほど性能が高く、標準偏差が小さいほど平均からのズレが少ないということを表す。
表1:CHiME7 Task2で提供されている二種類の実録音の学習データセットを用いたベースライン(RemixIT)と提案法の性能比較。10通りの教師モデルを用いた平均性能(Sources-to-distortions ratio: SDR)と標準偏差。

平均性能(SDR) が高いほど性能が高く、標準偏差が小さいほど平均からのズレが少ないということを表す。

■今後

本研究の成果は、当社が提供するロボットによる接客・広告技術の研究や、AIを活用した広告クリエイティブ制作のためのデータ生成など様々な事業への応用が期待されます。
また提案手法を基盤とし、実環境に対応する頑健な音声強調システムの開発や、既存音声データのクリーニングの精度向上に努めていきます。AI Labは今後も、ビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。


※1  IEEE International Conference on Acoustics, Speech and Signal Processing
※2 J. Lehtinen, et al, “Noise2Noise: Learning Image Restoration without Clean Data,” in Proc. ICML, pp. 2965-2974, 2018. 
コンピュータ・ビジョン分野にてノイズを除去する深層学習モデルとして提案された手法を音声強調の分野に応用

※3 E. Tzinis, et al,  “RemixIT: Continual Self-Training of Speech Enhancement Models via Bootstrapped Remixing,” IEEE Journal of Selected Topics in Signal Processing, 16(6), pp. 1329-1341, 2022.