
■EA, SP, SIP, IPSJ-SLP共催研究会(SPEASIP)について
音声・音響・信号処理の研究会で、第10回目の今回は電子情報通信学会 音声研究会 (SP)、日本音響学会 電気音響研究会/応用音響研究会(EA)、電子情報通信学会 信号処理研究会(SIP)、APSIPA Japan Chapter(APSIPA JC)と共催開催となります。
【発表】
日時 | 3月1(金) 09:30 - 10:30 ポスターセッション2 SP/SLP(中ホール312) |
タイトル | Remixed2Remixedを用いた音声強調のモデル学習法の改善 |
講演者 | 李 莉 、関 翔悟 (AI Lab Audioチーム リサーチサイエンティスト) |
概要 | 深層学習を用いた音声強調において、ノイジー音声とクリーン音声のペアを学習データとする教師あり学習モデルは、学習データと異なる分布を持つ実環境データに対して強調性能が低下する傾向がある。この問題を緩和するために、教師あり学習モデルを実環境データのドメインに適用させる手法として、Remixed2Remixed(Re2Re)が提案された。Re2Reは、技術評価国際イベントCHiME-7 Task2のデータセットを用いた実験において、目的関数に関して有効性が確認されている一方、ベースラインとの厳密な比較のために、学習法に関しては統一されており、Re2Reに適した手法は検討されていない。本論文では、Re2Reのモデル学習において、再混合時の信号対雑音比やエポック数が性能に与える影響を明らかにし、学習法の改善を提案する。 |
日時 | 3月1(金) 15:25 - 16:25 ポスターセッション3 EA/SIP(大ホール101) |
タイトル | Clarity Prediction Challenge 2のための音声基盤モデルベースの音声了解度の客観評価指標の調査 |
講演者 | 山本 克彦 (AI Lab Audioチーム リサーチサイエンティスト) |
概要 | 音声の明瞭さを示す音声了解度は、音声強調の分野でとても重要な指標である。2023年に開催された補聴器音の音声了解度を自動評価の予測精度を競い合うコンペ (Clarity Prediction Challenge 2; CPC2) では、大規模データで学習された音声認識モデルベースの手法 (speech foudation model-based objective intelligibility metric; SFM-OIM) が首位を獲得。SFM-OIMは、Whisper をはじめとした音声認識モデルのエンコーダ層から抽出された特徴量と聴取者の聴力特性を用いて、難聴者を含む主観評価の結果を予測する。本報告ではこのSFM-OIMの再現実装および評価実験を実施した結果について発表する。 |