AI Lab、コンピュータビジョン分野のトップカンファレンス「CVPR2022」にて3本の主著論文採択ー研究開発の基礎技術となる指標や分析方法を提案ー

広告｜2022年4月 1日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証一部上場：証券コード4751）は、人工知能技術の研究開発組織「AI Lab」研究員の大谷まゆ、富樫陸および、「AI Lab リサーチインターンシップ」参加者であるイェール大学博士課程の山田祐太朗氏らによる主著論文3本が「CVPR2022 (Computer Vision and Pattern Recognition)」※1に採択されたことをお知らせいたします。

「CVPR」は、コンピュータビジョン分野における世界最高峰の国際会議のひとつで、画像認識関連技術のトップ研究者が一堂に集う最大規模の学会です。
本学会は、学術誌・学術論文を網羅する検索サービス「Google Scholar」※2 において、学術分野への影響度の高さが「Nature」※3や「Science」※4に続き、全科学領域のなかで世界第4位にランクインしているなど、注目を集めています。

本年度は8161件の投稿の中から2067件の論文が採択されました。このたび「AI Lab」から採択された論文は、2022年6月に開催される「CVPR2022」にて、発表を行います。（※アメリカのニューオリンズにおいて、オフラインとオンラインのハイブリット開催を予定）

■採択された3本の主著論文について

「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取り組んでいます。なかでも、クリエイティブ領域における研究チームでは、クリエイティブ表現全般に関わる幅広いAI技術を研究するとともに、メディア理解の基盤となる評価指標やモデルの分析方法の開発も行うなど、応用研究だけでなく基礎研究にも注力をしています。

「Does Robustness on ImageNet Transfer to Downstream Tasks?」
Yutaro Yamada, Mayu Otani

著者：山田祐太朗（Yale University）・大谷まゆ（サイバーエージェント AI Lab）
2021年度の「AI Lab リサーチインターンシップ」における研究成果となります。

本研究は、実用的な設定における画像認識モデルの頑健性（※）について分析をすることを目的としています。

「画像認識モデルの頑健性」は、様々な画像を扱う必要がある実サービスの安定的な運用において、重要とされています。これまで画像認識モデルの頑健性に関する研究の多くは、識別タスクのためのデータセットにノイズを付与した際の性能変化を測定することで検証していました。

しかし、実際に画像認識モデルを活用する場面においては、あらかじめ大規模なデータセットで事前学習されたモデルを、転移学習して用いることが一般的です。
このような背景のもと、本論文では、事前学習済みモデルに備わっていた頑健性が転移学習後にも維持されているかを物体検出を含む複数の画像認識タスクで検証しました。

実験の結果から、転移学習後の頑健性において画像認識モデルのアーキテクチャが重要であることが分かりました。また、あるデータセットを用いて獲得された頑健性は、別のデータセットやタスクを使った転移学習後に必ずしも保持されないことから、データセットやタスクを跨いだ分析の重要性を指摘いたしました。

本論文で提案している分析方法は、今後のアルゴリズム開発において、より実サービスの応用に適した分析を可能とすることが期待されます。

※頑健性…撮影の過程で自然に生じる微細なノイズや、システムに対する攻撃を意図して混入された信号に対して出力が影響されない性質

＜Research Blog＞
【AI Lab リサーチインターンシップ】頑健性と転移学習

「Optimal Correction Cost for Object Detection Evaluation」
Mayu Otani, Riku Togashi, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Shin'ichi Satoh

著者：大谷まゆ（サイバーエージェント AI Lab）・富樫陸（サイバーエージェント AI Lab）・中島悠太（大阪大学）・Esa Rahtu（Tampere University）・Janne Heikkilä（University of Oulu）・佐藤真一（サイバーエージェント研究アドバイザー）

本研究では、物体検出アルゴリズムを評価するための新しい指標を提案しています。
物体検出は、画像中の物体の種類と位置を認識する技術として様々なサービスにおいて幅広く活用されています。

これまで多くの研究で使用されているAverage Precision (AP)は、物体検出を画像データベース全体に対するランキング問題（※）として評価しています。そのため、ターゲットとなる画像1枚単位での精度が重要となるような文字認識などのアプリケーションを想定する場合に、好ましくない振る舞いをすることがあります。

このような課題のもと、本論文で提案した指標では「予測された物体検出結果を正しい結果に修正するために必要なコスト」を画像ごとに評価する新しい方法を提案しました。

なお、本提案指標は、クラウド画像認識サービスや自動運転のためのシーン解析における検出アルゴリズムにおいて、従来の指標よりも適切な評価を与えることが期待されます。APに加えて新しい評価指標を使い分けることで、アプリケーションに適したモデルを選択することが可能となり、物体認識を用いた多くのサービスにおける改善が見込めます。

※ランキング問題…複数のアイテムをクエリに対する関連度などに基づき順位づけする（/並び替える）問題

＜論文リンク＞
Optimal Correction Cost for Object Detection Evaluation
＜Research Blog＞
【CVPR’22】物体検出アルゴリズムの新しい評価指標

「AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval」
Riku Togashi, Mayu Otani, Yuta Nakashima, Esa Rahtu, Janne Heikkila, Tetsuya Sakai

著者：富樫陸（サイバーエージェント AI Lab）・大谷まゆ（サイバーエージェント AI Lab）・中島悠太（大阪大学）・Esa Rahtu（Tampere University）・Janne Heikkilä（University of Oulu）・酒井哲也 (早稲田大学)

本研究では、動画シーン検索アルゴリズムを評価するための新しい指標「Average Max IoU@K（AxIoU@K）」を提案しています。

動画シーン検索アルゴリズムは、動画の中から目的のシーンの位置を見つけるための技術です。
従来、多くの研究で使用されている評価指標「Recall@K,θ」は、詳細な検索品質を反映しないといった課題がありました。

このような背景のもと、本論文では新しい指標「Average Max IoU@K（AxIoU@K）」を提案することで、より詳細なアルゴリズム品質評価を実現いたしました。

本研究では動画シーン検索における評価指標の妥当な要件を明示し、それらを満たすように新しい指標をデザインしました。
今回提案した指標は、動画シーン検索アルゴリズムの研究・開発の基盤技術となることが期待されます。

＜論文リンク＞
AxIoU: An Axiomatically Justified Measure for Video Moment Retrieval
＜Research Blog＞
【CVPR’22採択論文】動画検索の評価指標AxIoU

■今後

今回3本の論文で提案した指標および分析方法は、コンピュータビジョン分野における研究開発の基礎技術になるとともに、実サービスへの活用等が期待されます。「AI Lab」は今後もAI技術を取り入れたより品質の高い広告配信技術の実現を目指し、研究・開発に努めてまいります。

※1 CVPR2022 (Computer Vision and Pattern Recognition) https://cvpr2022.thecvf.com/
※2 Google Scholar https://scholar.google.co.jp/schhp?hl=ja
※3 Nature https://www.nature.com/
※4 Science https://www.science.org/