プレスリリース

サイバーエージェント、最大68億パラメータの日本語LLM（大規模言語モデル）を一般公開 ―オープンなデータで学習した商用利用可能なモデルを提供―

広告｜2023年5月17日

株式会社サイバーエージェント（本社：東京都渋谷区、代表取締役：藤田晋、東証プライム市場：証券コード4751）は、最大68億パラメータの日本語LLM（Large Language Model、大規模言語モデル）を一般公開したことをお知らせいたします。

近年、OpenAI社が開発した「ChatGPT」※1 を始めとする生成AI・LLMは急速な進化を遂げており、世界中のあらゆる業界・ビジネスにおいて活用が進んでいます。
一方、既存のLLMのほとんどは英語を中心に学習されているため、日本語および日本文化に強いLLMは少ない状況です。

■最大68億パラメータの日本語LLM（大規模言語モデル）の公開について

こうした背景のもと、当社は日本語LLMの開発に取り組んでおり、このたび一部モデルをHugging Face Hubにて公開いたしました。公開されたモデルはオープンな日本語データ※2で学習したもので、商用利用可能なCC BY-SA 4.0ライセンス※3で提供されます。なお、本モデルは日本国内における現行の公開モデルにおいて最大級の規模となります。（※2023年5月17日時点）

本モデルをベースとしてチューニングを行うことにより、対話型AIなどの開発も可能となります。これにより、より多くの方々が日本語の自然言語処理に関する最先端の研究開発に取り組んでいただけます。

■Hugging Face Hub URL
https://huggingface.co/cyberagent

当社では、これまで培った知見を活かしチャットボットやRPAをはじめとする業界特化型のLLMの構築や、各企業と連携したLLMを活用したビジネス開発の推進等を予定しております。また、LLMを活用したビジネス開発に携わるエンジニアの新規採用を実施し、体制強化に努めてまいります。

当社は今後も、引き続きモデルの公開や産学連携などの取り組みを通じ、国内における自然言語処理技術の発展に貢献してまいります。

※1ChatGPT
OpenAI社が開発・公開する大規模言語モデルを用いた高度な対話型AIです。言語理解・文章生成・質問応答・翻訳などに対応しており、様々な分野で注目を集めています。

※2オープンな日本語データ
WikipediaおよびCommon Crawlを使用

※3 CC BY-SA 4.0ライセンス
ライセンスについてはモデル公開ページに詳細の記載がありますのでご覧ください。なお個別の事例にはお答えできない場合がございますので予めご了承ください。

お問合せはこちらから