
賛助会員ポスター展示にてAI Labの組織紹介、音声情報処理の研究開発事例の紹介をいたしますので、ご興味のある方はぜひお越しください。
■日本音響学会について
日本音響学会は、米国音響学会に次いで1936年に設立された、音響関係では世界で2番目の歴史をもつ学会です。研究委員会は、音声、聴覚、騒音・振動、建築音響、電気音響、音楽音響、超音波、アコースティックイメージング、音声コミュニケーションの9分野に分かれて組織され、月例の研究会などのほか、公開セミナーやシンポジウムや春と秋の年2回の研究発表会を開催しています。
【発表】
日時 | 3月6(水) 13:00~15:00 【音声A・音声B】 E 棟9階展望ラウンジ 1-Q-26 |
タイトル | ニューラルネットに基づく音素アライメントのためのモデル構造・学習法および特徴量の比較評価 |
講演者 | 郡山 知樹 (AI Lab Audioチーム リサーチサイエンティスト) |
概要 | 音声とテキストのアライメントは、音声の分析や音声コンテンツの抽出、音声生成における韻律の編集など、多様な応用への基盤技術である。近年のend-to-end型の音声認識や音声合成で用いられる構成要素が正確なアライメントに与える影響を調査する。具体的にはConformerなどのモデル構造、隠れセミマルコフモデルなどの継続長制約、音素や状態などの学習単位、さらに音声基盤モデルやWhisperなどの特徴抽出器について検討する。 |
日時 | 3月6(水) 15:30~17:30【電気音響】 E 棟9階展望ラウンジ 1-R-14 |
タイトル | 非負値テンソル因子分解に基づく分散マイクアレイを用いたスポットフォーミング |
講演者 | 綾野 翔馬 氏 (香川高専)、李 莉、関 翔悟 (AI Lab Audioチーム リサーチサイエンティスト)、北村 大地 氏 (香川高専) |
概要 | ビームフォーミング(BF)は、高性能かつ低計算量のため、多チャンネル音声強調手法の一つとして幅広く使用されている。BFはマイクロホンアレイからみて特定の方向に存在する音源を強調できる一方、同一方向に複数の音源が存在する場合はそれらを分離することはできない。本発表では、複数のマイクロホンアレイを利用して特定の領域に存在する音源を強調するスポットフォーミングに注目し、非負値テンソル因子分解(NTF)を用いた手法を提案する。提案法では、各マイクロホンアレイに対してBFを適用することで、目的音源が存在する方向のすべての音源を強調し、強調された音源の共通成分をNTFにより抽出することで、目的音源の強調を実現する。 |
日時 | 3月7(木) 15:00~17:00【音声A・音声B】 E 棟9階展望ラウンジ 2-P-2 |
タイトル | 双曲空間への話者埋め込み |
講演者 | 関 翔悟、宮崎 晃一 (AI Lab Audioチーム リサーチサイエンティスト) |
概要 | 話者認識システムから得られる話者埋め込みは、音声合成など多様なアプリケーションに利用される。 応用先においては、通常数百次元程度の埋め込み表現が利用されているが、これはモデルの軽量化や低遅延化などにおいてボトルネックとなる。 本研究では、低次元でも有効な話者埋め込み表現として、双曲ニューラルネットワークを用いた話者埋め込み手法を提案し、話者認証タスクでの実験的評価を通して有効性を確認する。 |
【賛助会員ポスター展示】
日時 | 3月6(水) 13:00 - 15:00 拓殖大学文京キャンパス E 館9階 展望ラウンジ 1D |
内容 | 音声情報処理に関するAI Labの取り組みや、採用情報など紹介する予定です。 |
<関連リンク>
日本音響学会 公式サイト:https://acoustics.jp/日本音響学会第151回(2024年春季大会) 公式サイト:https://acoustics.jp/annualmeeting/program/
AI Lab 公式サイト:https://cyberagent.ai/ailab/