このページの本文へ移動

Menu

メニュー

  • 企業 
  • ニュース 
  • サービス 
  • 技術・デザイン 
  • 採用 
  • 投資家情報 
  • サステナビリティ 
  • CyberAgent Way 

 

プレスリリース

AI Lab、コンピュータビジョン分野のトップカンファレンス「CVPR2023」にて3本の主著論文採択

―グラフィックデザインにおける機械学習モデルの提案 / 画像生成AIの評価指標を調査―

広告

株式会社サイバーエージェント(本社:東京都渋谷区、代表取締役:藤田晋、東証プライム市場:証券コード4751)は、人工知能技術の研究開発組織「AI Lab」研究員の井上直人、菊池康太郎、大谷まゆ、山口光太、富樫陸および、AI事業本部の澤井悠、石上亮介らによる主著論文3本が「CVPR2023 (Computer Vision and Pattern Recognition)」※1に採択されたことをお知らせいたします。

「CVPR」は、コンピュータビジョン分野における世界最高峰の国際会議のひとつで、画像認識関連技術のトップ研究者が一堂に集う最大規模の学会です。本学会は、学術誌・学術論文を網羅する検索サービス「Google Scholar」※2 において、学術分野への影響度の高さが「Nature」※3や「Science」※4に続き、全科学領域のなかで世界第4位にランクインしているなど、注目を集めています。

本年度は9155件の投稿の中から2360件(25.78%)の論文が採択されました。また、このたび当社から採択された論文のうち「Towards Flexible Multi-modal Document Models」が、注目論文としてhighlightに選出されました。highlightは学会に採択された論文の中でも限られた研究のみに与えられ、2023年では採択率2.5%程度と非常に難易度の高いものです。

当社から採択された論文は、2023年6月に開催される「CVPR2023」にて、発表を行います。

採択された3本の主著論文について

「AI Lab」ではマーケティング全般に関わる幅広いAI技術を研究・開発しており、大学・学術機関との産学連携を強化しながら様々な技術課題に取り組んでいます。なかでも、クリエイティブ領域における研究チームでは、クリエイティブ表現全般に関わる幅広いAI技術を研究するとともに、メディア理解の基盤となる評価指標やモデルの分析方法の開発も行うなど、応用研究だけでなく基礎研究にも注力をしています。


「LayoutDM: Discrete Diffusion Model for Controllable Layout Generation」
Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi
著者: 井上直人(サイバーエージェント AI Lab)・ 菊池康太郎(サイバーエージェント AI Lab)・ シモセラエドガー(早稲田大学)・ 大谷まゆ(サイバーエージェント AI Lab)・ 山口光太(サイバーエージェント AI Lab)
本研究は、レイアウト生成のための機械学習モデルを提案しています。
レイアウト生成は、見出しや写真などの要素を配置する方法を自動で提案する技術であり、バナーやスライド・ポスターなどのグラフィックデザインの制作を大幅に効率化することが期待されています。

近年のレイアウト生成手法の多くは、出力の操作性向上の為にデザイナーによる様々な指示に対応できる生成を目指し、各要求に特化したモデルを開発してきました。例えば、「要素AはBより上に配置したい」「幾つかの要素は決定済みで残りを生成してほしい」「大まかな配置はしたが位置を微調整してほしい」などがあります。これまでの研究ではそのようなシナリオ全てに対応することは困難でしたが、本研究では単一のモデルで対応を実現する方法を開発しました。

提案手法では、生成モデルの一種である拡散モデルをレイアウト向けに様々な工夫を施して拡張しました。既存手法単体ではカバーできない多様な生成シナリオにおいて、我々の汎用モデルが既存手法に近いもしくは同等の精度で生成できることを実験的に確認しました。

本研究は当社が提供する「極予測AI」においてバナークリエイティブの自動生成への応用が期待されています。

<論文リンク>
LayoutDM: Discrete Diffusion Model for Controllable Layout Generation 
<Research Blog>
【採択論文紹介】拡散モデルに基づく制御性の高いレイアウト生成モデル (CVPR2023)

「Towards Flexible Multi-modal Document Models」
Naoto Inoue, Kotaro Kikuchi, Edgar Simo-Serra, Mayu Otani, Kota Yamaguchi

著者: 井上直人(サイバーエージェント AI Lab)・ 菊池康太郎(サイバーエージェント AI Lab)・ シモセラエドガー(早稲田大学)・ 大谷まゆ(サイバーエージェント AI Lab)・ 山口光太(サイバーエージェント AI Lab)
本研究は、デザイナーのグラフィックデザイン編集作業工程を真似た機械学習モデルを提案しています。

グラフィックデザイン編集では、マルチモーダル※ なデータを扱い「レイヤーを配置」「画像をテンプレートに当てはめる」「テキストの細かなプロパティ(例: 色・フォント等)を調整する」など様々な工程をデザイナーの手で積み重ね質を向上させることが重要です。また、こうした各工程の編集案を自動で提示する機械学習モデルの開発により、より短期間でより質の良いデザインを作りだすことが期待できます。

一方、これまでモデル構築にあたり、「配置する必要のある要素が写真・見出し・ボタンなど多岐にわたり、1つのデザインに含まれる要素が多くなりがちであること」「機械学習に用いることの出来るデータが希少であること」などが技術的に難しい点とされてきました。近年驚異的な発展を遂げている画像やテキストの生成と比べても難易度は際立ち、既存研究は特定の状況に特化したモデルの開発に留まっています。

本論文では、特徴量学習で有名な「穴埋めによる自己教師あり学習」の枠組みをマルチモーダルレイアウトに応用した生成モデルを提案しました。提案モデルは様々な入出力の生成問題として表現されるデザイン編集工程を「穴埋め」問題に変換することで同じニューラルネットワークで解くことが出来ます。また、この問題で取り扱うデータ構造に適したニューラルネットワークも設計し、既存ネットワークを適用するより良い結果を得られることを確認しました。

本研究は当社が提供する「極予測AI」においてバナークリエイティブをデザイナーと協調的に作り上げるシステムへの応用が期待されています。

※マルチモーダル:  数値、画像、テキストなど複数種類のデータが混在したデータ集合のこと。
<論文リンク>
Towards Flexible Multi-modal Document Models
<Research Blog>
【採択論文紹介】デザイナのグラフィックス編集工程を模した機械学習モデル (CVPR2023)


「Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation」
Mayu Otani, Riku Togashi, Yu Sawai, Ryosuke Ishigami, Yuta Nakashima, Esa Rahtu, Janne Heikkilä, Shin'ichi Satoh

著者: 大谷まゆ(サイバーエージェント AI Lab)・富樫陸(サイバーエージェント AI Lab)・ 澤井悠(AI事業本部)・石上亮介(AI事業本部)・ 中島悠太(大阪大学)・Esa Rahtu(Tampere University)・Janne Heikkilä(University of Oulu)・佐藤真一( サイバーエージェント 研究アドバイザー)
本研究ではテキストから画像を生成するモデルの評価について調査をしました。
画像生成AIは近年特に注力されている技術である一方、画像生成AIを評価する方法についてはまだ発展途上です。また多くの研究では自動評価指標が使われていますが、自動評価の問題点はこれまで多数指摘されています。

今回の研究では、急速に高性能になった画像生成モデルに対応するため、改めて人間の評価者を使った実験の整備に取り組みました。人間はさまざまな要因を総合的に判断して画像の品質を評価することができます。これは自動評価指標には未だ難しい問題です。また人手評価データは自動評価指標の妥当性を検証するために必須の資源です。

これまでは画像生成AIの人手評価方法は論文ごとに異なった方法が使われており、さらに手順の詳細が公開されていないことが多いため、透明性の観点から課題がありました。また収集されたデータの品質など実験方法の妥当性について検証がほとんどされていませんでした。このような問題に対して、本研究では一般的な人手評価実験の設定を検証し、推奨される評価手順を提案しました。今回の研究の知見にもとづき、同様の実験を将来の研究グループが簡単に実施できるようにするためのソフトウェアや結果報告のフォーマットを提供予定です。

さらに、収集した評価データを用いて自動評価指標の妥当性を分析した結果、自動評価指標と人の判断には大きなギャップがあることを確認しました。さらなる画像生成AIの発展には、より人間の知覚に沿った評価指標の開発が重要となります。

本研究は今後の画像生成研究の評価方法の改善を目的としていますが、学術研究だけでなく画像生成サービスの開発にも役立つことが期待されます。
<論文リンク>
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation
<Research Blog>
【採択論文紹介】クラウドソーシングを使った画像生成の評価 (CVPR2023)


■今後
今回発表した研究は、生成AI分野における研究開発の基礎技術になるとともに、実サービスへの活用等が期待されます。「AI Lab」は今後もAI技術を取り入れたより品質の高い広告制作の実現を目指し、研究・開発に努めてまいります。


※1 CVPR2023 (Computer Vision and Pattern Recognition) 
※2 Google Scholar ​​
※3 Nature   
※4 Science