「AI Lab」では、クロスアポイントメント制度をはじめとした産学連携を積極的に推進しており、今回の採択は、同制度を通じて参画する研究者との連携体制から生まれた成果となります。
「ICLR」は世界中の研究者によって毎年開催される国際会議で、「ICML」「NeurIPS」と並び、機械学習や深層学習の分野で権威あるトップカンファレンスの一つです。本年度は約19,000件の投稿の中から約28%の論文が採択されました。今回採択された論文は、2026年4月にブラジルのリオデジャネイロで開催される「ICLR 2026」での発表を予定しております。
採択された5本の論文について
「AI Lab」では、様々な技術課題に対して、大学・学術機関との産学連携を強化しながら幅広いAI技術の研究・開発に注力しています。
機械学習領域
機械学習領域の研究チームでは、プラットフォームにおけるユーザー体験や満足度を高める「意思決定戦略」や、実社会でAIを安定稼働させるための「学習理論」の基礎研究に取り組んでいます。これらの知見は、当社が提供する各種サービスの健全な成長や、予測モデルの信頼性向上を通じた社会実装に直結するものです。
「Beyond Match Maximization and Fairness: Retention-Optimized Two-Sided Matching」
著者: 岸本廉(東京科学大学)*・武樋力哉(早稲田大学)*・田中滉一(慶應義塾大学)・野村将寛(東京科学大学)・富樫陸※5・冨田燿志(サイバーエージェント AI Lab)・齋藤優太(コーネル大学/半熟仮想株式会社)
*共同筆頭著者
| 求人サービスやマッチングプラットフォームにおいて、従来のマッチ数最大化を行う推薦アルゴリズムでは、一部のユーザーにマッチが集中する一方で、多くのユーザーは少数のマッチしか得られないためプラットフォームに満足せず離脱してしまうという課題がありました。公平性を考慮することでマッチ数の偏りを抑えるアルゴリズムも提案されていますが、それらのアルゴリズムが多くのユーザーの満足度や離脱率の改善に繋がるとは限りません。本研究では、単にマッチ数や公平性指標を目的とするのではなく、ユーザーの最終的な目的(採用や成約など)の達成率を高めるように推薦する新アルゴリズム「MRet」を提案しました。MRetは、事前に定義されたユーザー満足度(成約率や継続率など)を行動履歴から学習し、それに基づいて推薦を受け取る側と推薦される側双方のユーザーの満足度を高めるように推薦順序を最適化します。本成果は、マッチングプラットフォームにおいてユーザーの最終的な目的達成を後押しするための基盤技術として期待されます。 |
「Why High-rank Neural Networks Generalize?: An Algebraic Framework with RKHSs」
著者:橋本悠香(NTT/理化学研究所)・園田翔(理化学研究所/サイバーエージェント AI Lab)・石川勲(京都大学/理化学研究所)・池田正弘(大阪大学 大学院情報科学研究科/理化学研究所)
| 深層学習において、情報量の多い「高ランクな重み行列」を持つモデルが、なぜ未知のデータに対して優れた適応力(汎化性能)を発揮するのか、その数学的な裏付けは十分に解明されていませんでした。本研究では、代数学の手法や「再生核ヒルベルト空間(RKHS)」という数学的枠組みを導入することで、より広範で現実的なAIモデルに適用可能な新しい理論的指標を導出しました。これにより、複雑なAIモデルが正しく学習・予測できる根拠を理論的に証明することが可能になります。本成果は、実ビジネスにおけるAIの信頼性を担保し、より安定した精度の高いモデル設計を支援する基盤となります。 |
クリエイティブ領域
クリエイティブ領域の研究では、動画や画像の「文脈の理解」や「マルチモーダルな評価」の高度化に取り組んでいます。これらは、AIで効果の出せるクリエイティブを予測・生成する「極予測シリーズ」への技術導入や、動画広告の自動編集技術の実現など、実際の制作現場や運用戦略を支える重要な基盤となっています。
「Measure Twice, Cut Once: A Semantic-Oriented Approach to Video Temporal Localization with Video LLMs」
著者:Zongshang Pang(大阪大学 産業科学研究所)・大谷まゆ(サイバーエージェント AI Lab)・中島悠太(大阪大学 産業科学研究所)
| 言葉による指示で動画内のシーンを特定する際、従来のビデオLLMは開始・終了時のタイムスタンプを直接予測する手法が多く、LLMが持つ高度な意味理解能力を十分に活用できていませんでした。提案手法では、タイムスタンプ予測ではなく動画の構造を捉えるための「構造トークン」と生成された意味特徴とのマッチングを活用したフレームワークを提案しました。明示的に各シーンの意味に着目して解析し、指示に対応するシーンとの対応を見つけることで、既存のアプローチを上回る性能を達成しました。本技術により、動画の自動編集や高度なシーン検索といった、より直感的で高精度なビデオ解析技術の実現が期待できます。 |
「PHyCLIP: ℓ₁-Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning」
著者:吉川大貴(北海道大学)・松原崇(北海道大学/サイバーエージェント AI Lab)
| 画像と言葉を理解するAIにおいて、概念の「上下関係(例:犬は動物)」と、要素の「組み合わせ(例:車に乗った犬)」という2つの異なるルールを、単一のAIモデル内で同時に扱うことは困難な課題でした。この問題に対し、データの階層を捉えるのが得意な「双曲空間」と組み合わせを捉えるのが得意な「直積計量」を同時に使う、新たな数学的指標を導入した新手法「PHyCLIP」を提案しました。この空間設計により、画像検索や分類タスクにおいて従来手法を上回る精度を達成しています。本成果は、AIがより複雑な指示や文脈を正確に理解するための基盤技術として貢献します。 |
「Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory」
著者:上林駿希(京都大学)・増井建斗(サイバーエージェント AI Lab)・新恭兵(京都大学)・包含(統数研 / 東北大学)・鹿島久嗣(京都大学)・井上直人※5・大谷まゆ(サイバーエージェント AI Lab)・竹内孝(京都大学)
| 現在のマルチモーダルLLMの評価指標には、画像またはテキストの片方のみで正解できる「ショートカット問題」が多く含まれており、複数のモダリティを扱う統合能力を正確に測れないことが課題となっています。この問題に対し、項目反応理論(IRT)を多次元に拡張し、モデル能力を「画像・テキスト・統合能力」の要素別に分解して推定するフレームワーク「M3-IRT」を開発しました。24種類のモデルを用いた検証の結果、提案手法は低品質な問題を適切に識別し、評価コストを抑えつつ高い信頼性を維持できることを示しました。本成果により、真に推論能力の高いモデル選定が容易になり、開発プロセスの効率化に寄与します。 |
■今後
これらの研究の成果は生成AIをはじめとした機械学習分野における研究開発の基礎技術になるとともに、極予測シリーズをはじめとした当社のサービスへの活用が期待されています。
「AI Lab」は今後もビジネス・社会課題の解決に向けたAI技術をプロダクトに取り入れるとともに、技術発展と学術発展に貢献するべく、研究・開発に努めてまいります。
※1:東京科学大学所属 2024年1月31日より2026年1月30日までリサーチインターンシップに参加
※2:早稲田大学所属 2024年10月2日よりインターンシップに参加
※3:クロスアポイントメント制度
※4:「ICLR2026」The 14th International Conference on Learning Representations
※5:所属は執筆当時