AI Lab、コンピュータ・ビジョン分野のトップカンファレンス「ECCV 2024」にて4本の論文採択

広告｜2024年9月 3日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、人工知能技術の研究開発組織「AI Lab」に所属する研究員のAntonio Tejero de Pablos、鈴木智之、毛家豊ならびに東京大学のJulian Jorge Andrade Guerreiro氏らによる論文が、コンピュータ・ビジョン分野の国際会議「European Conference on Computer Vision 2024（ECCV 2024、以下ECCV）」※1にて採択されたことをお知らせいたします。

「ECCV」は世界中の研究者によって隔年開催されるコンピュータ・ビジョン分野の国際会議で、「CVPR」※2「ICCV」※3 などと並び、本分野において最も権威のある学会のひとつです。
このたび採択された論文は、 2024年9月29日(日) から 2024年10月4日(金)にかけてイタリア・ミラノで開催される「ECCV 2024」にて発表予定です。

■背景

「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取り組んでいます。なかでもクリエイティブ領域における研究チームでは、当社が提供する「極予測シリーズ」をはじめとしたクリエイティブ表現全般に関わるグラフィックデザインの制作支援や自動生成技術を研究するとともに、メディア理解の基盤となる評価指標やモデルの分析方法の開発も行うなど、応用研究だけでなく基礎研究にも注力をしています。

■採択された4本の論文について

「Robust Nearest Neighbors for Source-Free Domain Adaptation under Class Distribution Shift」
著者：Antonio Tejero de Pablos、富樫陸、大谷まゆ(サイバーエージェント AI Lab)、佐藤真一(国立情報学研究所)

本研究は、モデルの学習時と利用時でデータ分布が変化する状況においても性能低下を抑制する新たな手法を提案しました。モデルの学習に使用されたデータ（ソースデータ）とテスト時に使用されるデータの分布の差による影響を低減するドメイン適用の手法は、ソースデータが不明な場合、クラス分布の変化に対応できず性能が低下することが知られています。
この問題を解決するため、本研究では大規模データで学習された汎用モデルによる予測結果を併用することで、より頑健性を向上させる方法を考案しました。

本研究の成果は、当社が提供するモデルの頑健性改善に役立つことが期待されます。

「LayoutFlow: Flow Matching for Layout Generation」
著者：Julian Jorge Andrade Guerreiro(東京大学)、井上直人(サイバーエージェント AI Lab)、増井建斗(サイバーエージェント AI Lab)、大谷まゆ（サイバーエージェント AI Lab）、中山英樹(東京大学)

本研究は、レイアウト生成のための機械学習モデルを提案しています。レイアウト生成は、見出しや写真などの要素を配置する方法を自動で提案する技術であり、バナーやスライド・ポスターなどのグラフィックデザインの制作を大幅に効率化することが期待されています。

提案手法は、近年登場した生成モデルの一種であるフローマッチングと呼ばれる手法に、レイアウト向けに様々な工夫を施し、拡張したモデルを提案しました。より良いベースアーキテクチャの発見と合わせることにより、拡散モデルがベースとなっている近年の既存手法と比べ提案手法が同等の精度を保ちながら生成速度を劇的に向上できることを実験的に確認しました。

本研究は当社が提供する「極予測AI」においてバナークリエイティブの自動生成への応用が期待されています。

「Fast Sprite Decomposition from Animated Graphics」
著者：鈴木智之、菊池康太郎、山口光太(サイバーエージェント AI Lab)

本研究は、動画バナー広告などのアニメーション付きのグラフィックデザインを要素（静止画素材とそのアニメーション）に分解することで再編集を可能にする手法を提案しています。デザイナーは分解された各要素に変更を加えることで動画を効率的に編集可能となります。

提案手法は動画単位の最適化と大規模学習済みモデルを組み合わせることにより、従来の手法と比較して高速かつ高品質に動画の分解が可能です。

本研究の成果は、当社が提供する「極予測AI」において既存の広告効果の高いクリエイティブを再利用するなど、動画広告制作フローの効率化に役立つことが期待されます。

「The Lottery Ticket Hypothesis in Denoising:Towards Semantic-Driven Initialization」
著者：毛家豊(サイバーエージェント AI Lab)、汪雪テイ(サイバーエージェント AI Lab)、相澤清晴(東京大学)

本研究は、テキストから画像を生成する拡散モデルにおいて、初期化された画像が生成結果に与える影響を検証し、初期化画像を操作することで、生成を制御する方法を提案しています。これにより、テキストから画像生成の失敗を回避し、画像生成の効率を大幅に向上させることが期待されています。

提案手法では、初期ノイズの画像には、特定の概念を生成しやすい画素ブロックが存在することを示しています。さらに、大量のランダム初期ノイズからこれらの画素ブロックを見つけ出し、ユーザーが指定した領域に配置することで、特定のレイアウトを持つオブジェクトを生成する方法を提案しました。

この基礎研究は、プロンプトとは異なる新しい制御方法を提案するもので、レイアウトに基づく広告画像の生成などの分野への応用が期待されています。

■今後

これらの研究は、生成AI分野における研究開発の基礎技術になるとともに、「極予測シリーズ」をはじめとした当社のサービスへの活用等が期待されます。「AI Lab」は今後もAI技術を取り入れたより品質の高い広告制作の実現を目指し、研究・開発に努めてまいります。

※1 「ECCV」European Conference on Computer Vision 2024
※2 「CVPR」The IEEE / CVF Computer Vision and Pattern Recognition Conference
※3 「ICCV」International Conference on Computer Vision 2023