本コンペティションは、制作された音響コンテンツの良し悪しを美的スコア(audio aesthetics score)に基づき自動評価する予測モデルの性能を、世界中の大学や企業から参加したチームが競い合うものです。審査の結果、当社の予測モデルのみが、人間による主観評価結果との相関係数(System-level SRCC)で0.9以上を達成し、参加チーム内で1位の予測精度となりました。これは本課題における極めて高い予測性能を示すものです。
研究成果の公開
本研究成果については、既に論文が国際会議「ASRU2025」に採択され、オンライン上でも公開されています。なお、論文で公開した研究成果の一部については、当該技術の取り扱いを明確にし、今後の社会実装を推進する目的で特許を取得しています。さらに、研究コミュニティへの還元を目的として、特許を取得した技術とは別に、一部の技術についてはソースコードを公開しています。
■関連情報
- 論文:K. Yamamoto, K. Miyazaki, and S. Seki, “The T12 System for AudioMOS Challenge 2025: Audio Aesthetics Score Prediction System Using KAN- and VERSA-based Models,” Automatic Speech Recognition and Understanding Workshop 2025 (ASRU 2025)
- ソースコード:https://github.com/CyberAgentAILab/aesca
- 特許:特許第7793104号(音評価システム、音評価方法およびプログラム)
受賞概要
- 大会名:AudioMOS Challenge 2025
- 公式サイト:https://sites.google.com/view/voicemos-challenge/audiomos-challenge-2025
- 参加トラック:Track 2 (音響コンテンツ品質の主観評価結果を予測)
- 成果:参加チーム内で1位の予測精度(全評価項目において相関係数(system-level SRCC)0.9以上)
今後
本技術は、クリエイティブの制作支援技術が飛躍的に向上している昨今において、制作された音響コンテンツの品質評価を効果的に支援するための技術基盤としてなど、幅広い用途での活用が期待されます。これからもAI Labは社会に価値をもたらす技術の創出に取り組んでまいります。
※1:「ASRU 2025」Automatic Speech Recognition and Understanding Workshop 2025