このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・デザイン 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、マルチメディア分野のトップカンファレンス「ACM MM 2023」にて2本の論文採択

ー拡散モデルの生成結果の新たな制御方法/広告クリエイティブのテキスト内容に基づくデザインを考慮した配色推薦の学習方法を提案ー

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田 晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」リサーチインターンシップ参加者※1の毛 家豊氏(東京大学博士課程)およびAI Lab研究員の汪 雪テイ・邱 倩如・大谷 まゆ らによる論文2本がマルチメディア分野の国際会議「ACM MM 2023」※2に採択されたことをお知らせいたします。

「ACM MM」は世界中の研究者により開催されている学術会議で、マルチメディア分野で権威あるトップカンファレンスのひとつです。このたび採択された研究は、2023年10月29日から11月3日にカナダ・オタワで開催される「ACM Multimedia 2023」で発表されます。 
■採択された2本の論文について

「Guided Image Synthesis via Initial Image Editing in Diffusion Model」
Jiafeng Mao, Xueting Wang, Kiyoharu Aizawa

著者:毛 家豊(東京大学), 汪 雪テイ(サイバーエージェント AI Lab), 相澤 清晴(東京大学)
本研究は、拡散モデルを用いた画像生成の新たな制御※3方法を提案しています。拡散モデルを用いた画像生成では、ノイズのような初期化画像を徐々に変換していくことで画像を生成します。この研究ではこの初期化画像を編集することで、最終的に得られる画像を制御することができることを示しました。
※3 オブジェクトや配置の指定


近年、Stable DiffusionやDALL·E2など画像生成系AIの基盤技術のひとつとして「拡散モデル」が注目を浴びています。一方で、拡散モデルによる生成の成功率には未だ課題があります。例えば、ユーザーが指定した条件に対して満足のいく生成画像を得るために、数十回程度と数多くの試行が必要になる場合もあります。
本論文では、初期化画像の生成傾向を実験的に分析しました。その結果、ユーザーのテキストによる指示と初期化画像の生成傾向が競合することで、生成が失敗する場合があることを確認しました。


この結論を踏まえて、画像生成が失敗した場合、対応する初期化画像の一部を再サンプリングすることで、プロンプトとの競合を排除し生成される画像の品質を向上させる手法を提案しています。(図1)

図1 再描画の実験サンプル


図1の左側の画像はランダムな初期ノイズから、右側の画像4点は部分的に再サンプリングされた初期ノイズから生成されました。不適切なオブジェクトや特徴が生成された場合、それに対応する部位を再サンプリングして改善しており、望み通りの生成結果を得るには平均して4~5回の試行を行いました。


さらに今回明らかになった性質を利用することで、特定の生成傾向を持つ初期化画像の一部を見つけ出し、ユーザーが指定した領域に再配置することによって、意図したレイアウトを持つ画像を生成するタスクを実現しました。


この基礎研究は、プロンプトとは異なる新たな制御方法を提案するものです。その成果はレイアウトからの広告画像生成や、生成された広告画像の編集など広範な応用が期待されます。


<論文リンク>
Guided Image Synthesis via Initial Image Editing in Diffusion Model

<Research Blog>
【採択論文紹介】初期化画像による生成コンテンツの編集(ACMMM2023)
「Multimodal Color Recommendation in Vector Graphic Documents」
Qianru Qiu, Xueting Wang, Mayu Otani

著者:邱 倩如(サイバーエージェント AI Lab)・汪 雪テイ (サイバーエージェント AI Lab)・ 大谷 まゆ(サイバーエージェント AI Lab)
本研究では、広告クリエイティブにおけるテキスト内容に基づいたデザインを考慮した配色推薦の学習方法を提案しています。
広告クリエイティブには写真・イラスト・テキストなど多様なデザイン素材があり、適切な色の選択が重要となります。実際に色を選択する際はデザイン中の既存の色情報だけではなく広告に書かれている内容などテキストの情報も考慮が必要なため、高度なデザインスキルが必要でした。
従来の研究ではデザイン中で使用されている色や、配色をイメージしたキーフレーズから色を推薦するモデルがそれぞれ開発されています。従来の配色タスクでは色間の調和を考慮し最適な色を推薦しています。しかし、テキスト情報においては内容の考慮はまだ十分ではありません。また、配色に対応するテキストの学習データは少なく、複雑なテキストの内容を反映した配色の提案にはまだ課題がありました。

そこで本論文では、色の調和だけでなくテキストの内容を反映した配色推薦を実現するため、カラーパレットの一部とテキストから残りのカラーパレットを予測するモデルを提案しました。
このアプローチではまず、既存のデザインの写真やあしらいから各要素のカラーパレットとコピーなどのテキスト情報を抽出します。このカラーパレットとテキスト情報を変換した特徴から、カラーパレットへ追加する色を予測するモデルを学習します。
被験者実験において、提案モデルによって推薦されたカラーパレットを使用したデザインは、デザイナーが作成したデザインと同程度に評価されました。
本研究は、当社が提供する「極予測AI」及び「極予測LP」において、バナークリエイティブやランディングページの自動配色への応用が期待されています。

<論文リンク>
Multimodal Color Recommendation in Vector Graphic Documents

<Research Blog>
【採択論文紹介】テキスト内容に基づくクリエイティブデザインの配色推薦 (ACMMM2023)



■今後
本研究の成果は、素材写真の生成やLPのデザイン支援など当社で取り組むクリエイティブの自動生成技術への活用等が期待されます。今後も「AI Lab」ではより効果の高い広告制作と運用を目指し、研究・開発に努めてまいります。


※1 東京大学所属、2022年9月より「AI Lab」にてリサーチインターンシップに参加
※2 「ACM MM