このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・デザイン 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、音声・音響信号処理分野のトップカンファレンス「ICASSP 2023」にて主著論文採択 -深層状態空間モデルを用いた、音声認識手法を提案-

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、AI技術の研究開発組織「AI Lab」に所属する研究員の宮崎晃一による主著論文が音声・音響信号処理分野の国際会議「ICASSP 2023」※1に採択されたことをお知らせいたします。なお、本論文は「AI Lab」の、村田雅人、郡山知樹による共同成果です。

ICASSP (International Conference on Acoustics, Speech, and Signal Processing)は、IEEE Signal Processing Societyが主催する音声・音響信号処理分野における最も権威のある国際会議のひとつで、2023年は48回目の開催となる歴史の長いカンファレンスです。このたび採択された本論文は、2023年6月にギリシャのロドス島で開催される「ICASSP 2023」での発表を予定しています。

■研究背景
近年、機械学習の発展に伴いAI技術を活用した新たな広告クリエイティブの制作が注目されており、AI Labでは広告クリエイティブ領域におけるさまざまな技術課題に対して、研究領域の幅を広げAI技術の研究・開発に取り組んでいます。

音声分野においては、高い認識性能を誇る音声認識技術や人間の音声と遜色ない音声合成が実現できるようになり、AI Labの音声・音響分野の研究に取り組むAudioチームでは著名人のデジタルツイン音声や音声広告、コールセンターのボイスボットへの応用など、自然で高度な音声対話となる完全自動対話の実現に向けて研究に取り組んでいます。

■論文の概要
Structured State Space Decoder for Speech Recognition and Synthesis
Koichi Miyazaki, Masato Murata, Tomoki Koriyama
著者:宮崎晃一・ 村田雅人・郡山知樹(サイバーエージェント)

本研究は、ICLR2022 で提案されたStructured state space model (S4) ※2を用いた音声認識・音声合成を提案し、現在広く用いられているTransformerを用いたモデルとの比較・検証を行いました。S4は深層学習と状態空間モデルを組み合わせたモデルで、長距離の依存関係を捉えることができ、高速な学習とメモリ効率の高さから注目されているモデルです。

提案したモデルはベースラインとしたTransformerモデルと比較して高い音声認識性能を達成しただけでなく、ベースラインモデルでは高精度な認識が難しかった長い音声に対しても高い性能を維持したまま動作することを確認しました。 また、本研究で提案したモデルは日本語話し言葉コーパス(CSJ)を用いた日本語音声認識では最高性能(論文投稿時点)を達成しました。提案したモデル構成は音声認識や音声合成だけでなく、今後より幅広い音声タスクへの適用が期待できます。

■今後
本研究では、系列モデリングタスクで注目を集めているS4を用いた音声認識・音声合成を提案し、その有効性を複数のデータセットで実証しました。この性能改善は他の音声タスクにおいても有効に働くことが期待されます。

音声技術の研究は、当社が提供する様々な事業に技術展開を予定しており、まるで人間と会話するかのような自然なユーザー体験ができる高品質な音声コミュニケーションサービスの提供を目指しております。AI Labは今後も、ビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。



※1 ICASSP https://2023.ieeeicassp.org/
※2 S4 A. Gu, K. Goel, and C. Ré, “Efficiently modeling long sequences with structured state spaces,” in Proc. ICLR, 2022.