このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・クリエイティブ 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、マルチメディア分野のトップカンファレンス「ACM MM 2025」にて2本の論文採択

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田 晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」研究員の邱 倩如・菊池 康太郎らによる論文2本がマルチメディア分野の国際会議「ACM MM 2025」に採択されたことをお知らせいたします。
「ACM MM」は世界中の研究者により開催されている学術会議で、マルチメディア分野で権威あるトップカンファレンスのひとつです。このたび採択された研究は、2025年10月27日から10月31日にアイルランドのダブリンで開催される「ACM Multimedia 2025」で発表されます。
また、本研究に加えて、新しいデータセットの構築・設計を対象とする新設トラックであるDataset Trackにおいても、画像内テキスト除去に関する論文「OTR: Synthesizing Overlay Text Dataset for Text Removal」※も採択されております。
※著者:Jan Zdenek, Wataru Shimoda, Kota Yamaguchi 

■背景

近年、インターネット広告市場の急速な成長に伴い、広告効果を最大化することを目的とした、AI技術を活用したクリエイティブ制作や運用の効率化が注目されています。「AI Lab」では、クリエイティブ領域における様々な技術課題に対して、大学・学術機関との産学連携を強化しながら幅広いAI技術の研究・開発に注力しています。

採択された2本の論文について

「Exploring Palette based Color Guidance in Diffusion Models」
著者:邱 倩如(サイバーエージェント AI Lab)、毛 家豊(サイバーエージェント AI Lab)、Xueting Wang(サイバーエージェント AI Lab)
本論文では、拡散モデルによって大きく進展したテキストから画像への生成(T2I)において、色彩の制御を強化する新たなアプローチを提案します。拡散モデルを用いた画像生成では、テキストプロンプトに明示的に記載された内容に従って画像が生成されます。本研究では、色彩パレットをプロンプト指示とは別の指導メカニズムとして統合することで、生成される画像の色彩を精緻に制御できることを示しました。

従来のT2Iモデルでは、ユーザーが「赤」や「青」などの言語的な色名を使用して色を指定するのが一般的ですが、これによって生成された画像はユーザーの意図を正確に反映しないことがあります。また、色値(例:RGB)をテキストプロンプトに直接挿入する方法は、特にカラーデザインの文脈において不正確な出力が生じやすいです。本論文では、色彩パレットを独立した表現モデルとして構築し、パレット埋め込みをプロンプト指示とは別の指導メカニズムとして用いることで、色彩制御を精緻化する方法を提案しています。

評価実験では、提案したパレット指導メカニズムを適用することで、生成される画像はユーザーが意図した色調をより正確に反映でき、背景や目立たないオブジェクトを含む画像全体の色調和を管理することが可能であることが確認されました。

本研究の成果は、生成された画像の色彩制御を大幅に向上させ、広告画像作成における素材画像の生成や編集など、幅広い応用が期待されます。


「Multimodal Markup Document Models for Graphic Design Completion」
著者:菊池 康太郎(サイバーエージェント AI Lab)、本多 右京(サイバーエージェント AI Lab)、井上 直人(サイバーエージェント AI Lab)、大谷 まゆ(サイバーエージェント AI Lab)、シモセラ・エドガー准教授(早稲田大学)、山口 光太(サイバーエージェント AI Lab)
本研究では、グラフィックデザインを対象とした新たなAI技術であるMarkupDMを提案しています。MarkupDMは、マークアップ言語と画像が交互に連なるマルチモーダル文書を用いて、グラフィックデザインをモデル化する手法です。従来のグリッド表現に基づく方法(例えばFlexDM)と異なり、MarkupDMは可変長の要素やタイプ依存の属性、テキストコンテンツを柔軟に扱うことが可能です。
MarkupDMの主な特徴は、デザインを画像ではなく文書形式で生成するため、その後の編集や調整が容易になる点です。また、デザイン内の画像を特殊なトークナイザーで離散トークンに変換し、透明領域を持つ画像や装飾的な画像の推論を実現していることも特徴です。さらに、文書の欠落部分を周囲の文脈から推測して埋めるFill-in-the-middleトレーニングの採用により、デザインの一部が欠落した状態から高品質な完成デザインを生成することが可能になっています。
評価実験では、属性値・画像・テキストの各要素を対象としたデザイン補完タスクにおいて、MarkupDMは従来手法を上回る性能を示しました。また、新たに導入した指示に基づくデザイン補完タスクでも、MarkupDMは最新の指示型画像生成AIに匹敵する性能を示し、生成性能と編集可能性の両立を実現しています。
本研究の成果は、グラフィックデザインの自動化や効率化を促進し、バナー広告やランディングページの制作など多様なクリエイティブ業務への幅広い応用が期待されます。

<論文リンク>
Multimodal Markup Document Models for Graphic Design Completion



■今後
本研究の成果は、多様なクリエイティブ業務への活用等が期待されます。今後も「AI Lab」ではより効果の高い広告制作と運用を目指し、研究・開発に努めてまいります。