研究背景
近年、機械学習の発展に伴い、大規模言語モデル(LLM)は自律的なエージェントとして複雑な意思決定を担うことが期待されています。ビジネス現場への導入が急速に進む中、与えられた規定やルールへの忠実さは、業務を代替・支援する上で大きな強みです。しかし、実社会のあらゆる状況を明文化されたルールのみで網羅することは困難です。時には、規定を厳守することが、顧客満足度の向上や長期的な利益といった「達成すべきビジネス目標」を損なうケースも存在します。
例えば、広告クリエイティブの制作現場では、顧客が定めたレギュレーションに従うことが、必ずしも「広告効果の最大化」や「ブランドイメージの向上」に繋がらないことがあります。このようなジレンマに直面した際、人間は状況を的確に読み取り、顧客への相談や例外的対応を交えながら柔軟に目的を達成します。一方、LLMが同様の状況に置かれたとき、「規定の厳守」と「ビジネス目標のための例外対応」のどちらを優先すべきか、状況に応じて適切に判断できるかどうかは、これまで十分に明らかにされてきませんでした。
研究結果
GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms
本研究では、LLMが組織のビジネス目標と規定との間でいかにバランスを取り、適切な意思決定を行えるかを評価するための新しいベンチマーク「GAIN」を提案しました。
GAINの特徴
GAINは、現実のビジネスシーンを模した判断問題をLLMに提示するベンチマークです。各シナリオは「達成すべきビジネス目標」、「直面している具体的な状況」、「遵守すべき社内規定」の3要素で構成されます。最大の特長は、これらに加えて文脈的圧力(Contextual Pressures)を意図的に付与している点です。これは、実際の現場で人間が意思決定を迫られる際に感じる「判断を揺さぶる要因」を再現したもので、LLMが状況変化に応じてどのように判断を変えるかを体系的に測定します。 文脈的圧力は、以下の5つのタイプとして定義しています。
1.目標整合性:規定から外れた行動が、むしろビジネス目標の達成につながると示唆する
2.リスク回避:規定通りに行動することで、損失や悪影響が生じるリスクを強調する
3.倫理的訴え:公平性や思いやりといった道徳的感情に訴えかけ、規定の例外を正当化しようとする
4.社会的影響:上司の指示や組織の暗黙の慣行など、周囲からの同調圧力をかける
5.個人的インセンティブ:昇進やボーナスなど、個人の利益につながる情報を提示する
実験結果
本研究では、採用、カスタマーサポート、広告、金融の4ドメインからなる計1,200の実践的シナリオを用いて評価を行いました。その結果、GPT-5やGPT-4.1をはじめとする最新のLLMは、多くの状況下で人間の意思決定傾向と近いことが確認されました。
特筆すべきは、「個人的インセンティブ」に対する反応の違いです。人間が一定割合で個人的利益(昇進やボーナスなど)に影響を受け判断を変えるのに対し、LLMはこれに対して非常に強い抵抗感を示しました。これは、AIのアライメント※2が機能していることを裏付ける結果であると同時に、LLMが人間とは異なる独自の判断特性を持つことを示唆しています。
これらの結果は、LLMが実務において「人間らしく柔軟な判断ができる場面」と「人間と異なる振る舞いをする場面」を浮き彫りにしました。LLMをより信頼性が高く適応力のある自律型エージェントとして、実社会へ展開していくための重要な知見となります。
今回の研究成果は、生成AIを活用した自律型エージェントの意思決定精度の向上に寄与するものです。また、当社が提供する広告審査サービス「審査AI※3」において、画一的なルール適用にとどまらず、広告の文脈やビジネス目標を踏まえたより精度の高い審査判断を実現する基礎技術としての活用を目指します。AI Labは今後も、最先端のAI技術研究を通じて、ビジネス現場におけるAIと人間の共生と、社会課題の解決に貢献してまいります。
※1 LREC 2026:The 15th Language Resources and Evaluation Conference
※2 AIのアライメント:AIを人間の意図や倫理観に沿うように調整する学習のこと
※3 審査AI:広告主企業が自ら指定したルールAIによる高精度な自動審査で広告クリエイティブをスクリーニングし、その指定ルールに基づく審査結果を提示するシステム