ハイブリッドクラウドを駆使したコスト最適化:
SREと連携したDynalystの移設

スマートフォン向けパフォーマンス広告配信プラットフォーム「Dynalyst」開発チームは、社内のSREチームと共同で、AWSからプライベートクラウド「Cycloud」への移設を成功させました。膨大なトラフィックを支える事を可能としたハイブリッドクラウド構成により、コスト最適化と運用の柔軟性を両立しました。
本記事では、Kubernetes/CloudNative領域のDeveloper Experts 青山をモデレーターに「Dynalyst」の開発責任者、SREエンジニアを交えたパネルディスカッションをお伝えします。
移行プロジェクトの背景、直面した課題、そしてSREチームやCycloudチームがどのようにしてハイブリッドクラウド環境を構築し、サービスの信頼性とコスト効率を高めたか、その技術的な詳細をふりかえりました。
Profile
-
青山 真也 (グループIT推進本部 CyberAgent group Infrastructure Unit - CIU)
2016年、新卒でサイバーエージェントに入社。OpenStackを使ったプライベートクラウドやマネージドKubernetesサービスをゼロから構築。国内カンファレンスでのKeynoteの登壇など多数。著書に『Kubernetes完全ガイド』『Kubernetesの知識地図』『みんなのDocker/Kubernetes』。現在はCloudNative領域のOSSへの貢献をはじめ、CloudNative Days Tokyo Co-chair、CNCF Japan ChapterのOrganizer、Kubernetes Meetup TokyoのOrganizerなどコミュニティ活動にも従事。 -
千手 耀平 (AI事業本部 アドテクディビジョン Dynalyst)
2021年新卒入社。AI事業本部所属。「Dynalyst」のテックリードを経て現在 同プロダクトの開発責任者 -
平田 聡一朗 (AI事業本部 アドテクディビジョン SREグループ)
2023年入社。前職で半導体開発、AWSでのセキュリティ改善、CI/CDやモニタリング環境構築などを担当。入社後は検索連動型広告配信システム「Retail-X」のインフラ環境構築を担当。現在は「Dynalyst」のコストカットやインシデント対応改善などのSRE支援を担当。
広告配信プラットフォーム「Dynalyst」をプライベートクラウドに移設した理由とは?
青山:今回のテーマは「プライベートクラウドへの移設とハイブリッドクラウド構成」です。「Dynalyst」開発責任者の千手さんと、移設に関わったAI事業本部SREグループの平田さんを交えて、移設にまつわる技術的なふりかえりをディスカッションしてみたいと思います。
まず読者にとって特に興味があるのは、なぜ運用中の広告配信プラットフォーム「Dynalyst」をパブリッククラウドからプライベートクラウドへ移設する必要があったのか?またその背景にどのような事情があったのか?といった点かと思います。
まずはそのあたりについて詳しく聞かせてください。
千手:「Dynalyst」はAI事業本部が2015年にリリースしたスマートフォン向けパフォーマンス広告配信プラットフォームです。主にリターゲティング広告や新規インストール促進型広告を提供していて、月間数千億、秒間数十万リクエスト規模のトラフィックを有し、データ解析と広告配信を支えるインフラを備えています。
そんな「Dynalyst」の移設プロジェクトの発端には、大きく2つの理由があります。
まず1つ目は為替リスク。ここ数年、米ドルの独歩高が続いていて、AWSをはじめとする海外のパブリッククラウドの利用コストが年々増加する状況に直面していました。当社ではパブリッククラウドを幅広くプロダクト開発に活用しているため、契約料金や利用料金がダイレクトにコスト増加の要因となっていました。
もちろん、こうした状況を踏まえて、プロダクト内でのコンポーネントやアーキテクチャの見直しを進め、運用効率化やコスト削減といった対策を講じてきました。しかし、ドルの価格は上下しつつも年々上昇傾向にあり、局所的な対策だけでは為替で生じるコスト増加分を相殺することは難しい状況にありました。
そんな中、抜本的な対策として「Dynalyst」のシステム構成の大部分を、社内のプライベートクラウド「Cycloud」に移設する案が浮かび上がりました。
青山:確かに、昨今のドル高の影響は、海外のパブリッククラウドを利用する環境では、頭の痛い課題ですよね。CIUでも「為替の影響でインフラの運用コストが予想以上に増加して困っている」といった社内プロダクトからの相談を受けています。
我々が開発・運用する「Cycloud」は複数拠点のデータセンターにて数千台の物理サーバーによって稼働していて、サイバーエージェントグループでおよそ200を超えるプロジェクトで利用されています。自社による国内データセンターでのクラウド運用を手掛けたり、GPUサーバに関する最先端の機材を調達から導入まで、低コストかつスピード感を持って導入するなど、コストインパクトのある環境を構築しています。
そのため、為替が短期的にドル高に大きく振れるといった時流においても、比較的安価にクラウド環境を提供できるのは大きな強みなので、こういう市況だからこそ、事業の力になれたらと考えていました。
それでは、移設に至った2つ目の理由についても教えてください。
千手:2つ目は「Dynalyst」におけるビジネスモデルの変化です。従来「Dynalyst」ではリターゲティング広告を中心に提供していましたが、2022年頃から、新規インストールを促進するための、新たな広告手法を展開するようになりました。
この背景には、広告市場全体の環境変化が、プロダクト戦略に大きな影響を与えている点にあります。特に、2010年から2011年にかけてApple社がiOSに導入した「ATT(App Tracking Transparency)」機能により、ユーザーが広告トラッキングを選択的に制限できるようになり、リターゲティング広告の手法に一定の制約が生じました。
「Dynalyst」では、こういった業界の変化に迅速に対応するため、ターゲットを絞った広告配信から、広範囲にリーチする「ブロードリーチ型広告」への戦略転換を進めました。これにより新規インストール促進を目的とし、幅広いユーザー層への広告効果を最大化することを目指しました。
一方、技術的な課題も生じました。以前のリターゲティング広告は、特定のユーザーをターゲットにしたピンポイント配信形式であったため、データトランスファー(データ転送量)を抑えることができました。一方で「ブロードリーチ型広告」では、特定のターゲットに限定せず、より広範なユーザーに向けてデータを配信する形式に移行したため、データトランスファーが大幅に増加し、その結果、クラウドの利用料金も急増することになりました。
先程話した為替の影響も相まって、一時期は「Amazon EC2」の利用料金やデータトランスファー料金が「Dynalyst」全体のシステムコストの約3分の2を占めるまでになりました。このようなコスト構造の変化を放置するわけにはいかず、抜本的な見直しが必要となったというのが背景です。
青山:なるほど。為替リスクの問題と、広告市場全体の環境変化に伴うビジネス的な要件が重なり、結果的にプライベートクラウドである「Cycloud」への移設が検討にあがったんですね。「Cycloud」との接点は千手さんのほうからアプローチしたんですか?
千手:そうですね。まず「Cycloud」ではロードバランサーからのデータトランスファー料金が無料という話を耳にしたのがきっかけです。「Cycloud」のサイトにあるコスト算出ツールを使って試算したところ、最低でも月間数百万円のコスト削減が見込めるという数字が出ました。この金額はかなり大きなインパクトだったので、移設に向けた検証を進める価値があると判断しました。
「Cycloud」のウェブサイトにあるお問い合わせボタンから相談内容を送信したところ、担当の方からすぐに返信をいただきました。そこから話が進み、プロジェクトがスタートしたという流れです。

AWSからプライベートクラウド(Cycloud)への移設で直面した課題
青山:運用中のプロダクトを移設となると、大掛かりなプロジェクトになるかと思いますが、どんなところから着手されたんですか?
千手:2024年の年明け頃に、まずは技術調査から始めました。その段階では、インフラ構築自動化ツール「Ansible」を使ったインフラ構築など、必要最低限の準備を進めることからスタートしました。調査を進める中で、最初に痛感したのは「これは一人では無理だ」ということでした。特に「Ansible」を使った設定やインフラ構成の調整といった部分で、専門的なサポートが必要だと感じました。そこで、AI事業本部専属のSRE専門チームに支援をお願いし、SREとして平田さんがジョインしました。
平田:私が「Dynalyst」の移設プロジェクトに参加したのは2024年の年明け頃からでした。まず定例会議に参加して、課題や進捗状況をヒアリングするところからスタートしました。そこからAWSとオンプレミス環境を専用線で接続するネットワークサービス「AWS Direct Connect」の疎通テストや、それに関連する作業を進めていく事からはじめました。
ヒアリングを通して実感したのは「Dynalyst」開発チームの「若手主導で大きな事業成果を狙っている」という、コミットメントとオーナーシップを感じる技術カルチャーです。
千手さんも新卒4年目で開発責任者を努めていて、移設という責任あるプロジェクトを推進していますよね。チームメンバーの技術や事業成果への探究心が強く「なんとしても、この移設プロジェクトを成功に導きたい」という気持ちが伝わってきました。

青山:なるほど。確かに「Dynalyst」の開発メンバーは千手さんをはじめとして、若手が裁量権をもってチームを作っていますよね。
さて、これから技術的な話を深ぼっていくにあたって、現在の「Dynalyst」のシステムアーキテクチャを紹介した上で、いろいろ話していきましょうか。
平田:現在の構成は、AWSとプライベートクラウド(Cycloud)を組み合わせたハイブリッドクラウド構成になっています。

青山:紹介ありがとうございます。AWSとGCPを組み合わせたマルチクラウド構成は耳にすることが多いですが、パブリッククラウドとプライベートクラウドを組み合わせたハイブリッドクラウド構成は珍しいですよね。しかも「Dynalyst」のような大規模なプロダクトの移設事例はかなりレアケースですね。
一連の移設作業の中で、特にハードルが高かった技術的課題は何でしたか?
千手:最大の課題は、私たちが「40%帯の壁」と呼んでいた問題です。AWSで処理しているリクエスト数は1秒あたり約40万件ですが、そのうちの40%程度、つまり十数万リクエストを「Cycloud」内のマネージドKubernetesサービス「AKE 」で処理しようとすると、急激にレイテンシーが跳ね上がる現象が発生しました。
私たちの目標は、秒間40万リクエストの全てを「Cycloud」に移行することだったのですが、初期段階ではおよそ4分の1までしか移行できない状況に直面しました。予想外の技術的なハードルに加え、スケジュールも遅延し始めたので、この時期が精神的にも一番しんどかったです(笑)。
平田:その状況を打開するために、まずはレイテンシーの安定化を目指しました。具体的には、ビットサーバー周辺の設定を再調整し、ネットワーク構成の見直し、キャッシュサーバーやデータベースのパラメータチューニングを行うことで、少しずつ問題を解消していき、最終的には秒間リクエストの90%を「Cycloud」の「AKE」で処理することに成功しました。

ハイブリッドクラウド構成にしたことによるメリット
千手:レイテンシーの問題を解決したのも束の間、次は「Cycloud」とAWSを接続するための「AWS Direct Connect」の通信コストがネックになり始めました。
平田:「AWS Direct Connect」は、AWSとユーザー間に専用のネットワークを確立するサービスです。インターネットを経由しないため、通信の安全性が非常に高く、また回線の混雑や状況の変動に左右されることなく安定した接続を提供します。この特徴を活かしてハイブリッドクラウド構成に活用していました。その一方、専用線の利用料金や「AWS Direct Connect」の利用料金などコストが高くなる特徴があります。
当初の構成では、「AKE」に配置したビットサーバーが「AWS Direct Connect」を通じてAWSのデータベース「Aurora」にアクセスしており、この通信コストが大きな負担となっていました。
そこで、対策として「Cycloud」にデータベースを配置し、AWS上のデータベースのリードレプリカを構築、そして「Cycloud」内のビットサーバーが直接そのリードレプリカを参照するようにしました。この変更により、「AWS Direct Connect」を利用する通信を大幅に削減することができました。
こういったハイブリッドクラウド構成への移行を進めた結果、2024年6月中旬には「Cycloudへの移設完了」と言える状態に達しました。
青山:素晴らしい成果ですね。ところで、当初の目的はコスト削減だったと思います。それだけのリクエストを「Cycloud」で処理した際の費用対効果についても聞きたいです。
千手:AWSとのデータトランスファー料金に関しては、今回の移設によってほぼゼロに近い転送量になり、AWS利用料のうち2/3を占めるデータトランスファーとEC2利用料が削減することができました。ハイブリッドクラウド構成にしたことで、よほど極端な為替変動がない限り、今回の移設の目的の1つである「為替リスク」も回避できたと言えます。
青山:ハイブリッドクラウド構成にしたことで、AWSを単独で使う場合には得られなかったようなプラスのメリットはありますか?
平田:1つ大きなメリットは、対障害性が向上した点です。もちろんAWSの全リージョンがダウンすることは想定しにくいですが、例えばビットサーバーや関連するコンポーネントが一部ダウンした場合「Cycloud」にリソースを集約することで「Dynalyst」の事業継続性を確保できます。その逆も然りで「Cycloud」で大規模な障害があった場合は、AWSに切り替えることが可能です。このように、双方を補完し合う仕組みが新たに生まれたことは、大きなプラスでした。
千手:「Cycloud」に関してはコストが管理可能なリージョンが、1つ増えたような感覚です。プライベートクラウドで受けきれない場合にパブリッククラウドを活用したり、パブリッククラウドがコスト増に耐えられない場合にプライベートクラウドでカバーしたりと、状況に応じた柔軟な運用が可能になりました。
両方の長所と短所を補えるのは、ハイブリッドクラウド構成ならではの利点だと思います。

クラウドのハイブリッドクラウド構成をやりきる際のポイントは?
青山:移設に関して技術的な課題やトラブルはつきものですが、SRE観点でどんな事に気をつけながらプロジェクトを推進していきましたか?
平田:重視したのは、金銭的なコスト削減だけでなく、移行後の運用面でのメリットとデメリットをすべて可視化し、チームで判断できるようなワークフローを構築することです。その際に「Cycloud」が提供するマネージドサービスの活用により、移設後の安定運用につなげることを重視しました。
マネージドサービスではない場合、例えば「Redis」では、自前でマスターがダウンした際にレプリカをフェイルオーバーさせる機能を構築する必要があります。その際「この実装が現実的に可能なのか」「エラーが発生した場合にログを確認して適切に対応できるのか」「夜中に障害が発生した際にアラートを受けて迅速に対処できる体制が整っているか」といった課題を1つずつ洗い出しました。
青山:ステートフルな「MySQL」や「Redis」のように運用が大変な部分ほど、コンピューティングのコストだけではなく、運用に何が必要なのかを見据えて運用コストを考えることは重要ですよね。今回はMySQLのプライマリインスタンスはマネージドサービスを活用しつつ、「Redis」などのキャッシュ用途のデータストア部分では、「落ちてもすぐにリカバリできる」仕組みを取り入れることで、コストパフォーマンスを最大化する技術選定をしていると思いました。
平田:プライベートクラウドの利点として、調達コストやシステム運用コストを抑えられる点がありますが、決して「無料」というわけではありません。プライベートクラウドを運用するためには、携わるメンバーの人件費やオペレーションコストがかかるため、そこをどうバランス良く運用するかが重要です。適切なマネージドサービスを選定することで、メンバーの稼働を含めた全体の運用コストがペイできるような設計や運用が実現できるので、そういった観点も、クラウド運用では必要不可欠と言えますね。

青山:最後にお伺いします。本プロジェクトでは「Dynalyst」をはじめ、多くの若手メンバーが開発に関わっています。どのような若手エンジニアが生き生きと活躍している印象ですか?
千手:我々「Dynalyst」の開発チームでは、事業責任者やビジネスレイヤーからさまざまなビジネスニーズやリクエストを受けながら開発を進めています。その際、単に依頼されたことをそのまま開発するだけではなく、システムの運用保守や信頼性、コスト効率をしっかりと考慮しながら、ビジネスや事業継続性に寄り添った開発を行うことが求められます。
今回の移設プロジェクトも、為替やプライバシー保護といった、エンジニアリング以外の要素が発端となった課題に対応する形で始まりました。
ビジネス環境は常に変化し、時流や不確実性への対応力が欠かせません。こうした変化に即応し、技術的な選択肢を素早く評価・実装できる若手エンジニアが増えることが、プロダクトのクオリティや市場優位性を高めることにつながると思っています。
「Dynalyst」の開発責任者として、そういった若手メンバーが一人でも増えたらと考えています。
オフィシャルブログを見る
記事ランキング
-
1
過去最多応募のヤングカンヌPR部門でGOLD受賞!日本代表になるまでの軌跡
過去最多応募のヤングカンヌPR部門でGOLD受賞!日本代表になるまでの軌跡
過去最多応募のヤングカンヌPR部門でGOLD受賞!日本代表...
-
2
「Abema Towers(アベマタワーズ)」へのアクセス・入館方法
「Abema Towers(アベマタワーズ)」へのアクセス・入館方法
「Abema Towers(アベマタワーズ)」へのアクセス・...
-
3
DX内製エンジニア専門組織「INTECH」始動-サイバーエージェントが切り...
DX内製エンジニア専門組織「INTECH」始動-サイバーエージェントが切り拓くDX内製の未来-
DX内製エンジニア専門組織「INTECH」始動-サイバーエ...
-
4
【図解】3分でわかるサイバーエージェント
【図解】3分でわかるサイバーエージェント
【図解】3分でわかるサイバーエージェント
過去最多応募のヤングカンヌPR部門でGOLD受賞!日本代表になるまでの軌跡

2024年度のヤングライオンズコンペティション(通称:ヤングカンヌ)のPR部門に挑戦し、国内予選で見事日本1位のGOLDを受賞した社員にインタビュー。10年のヤングカンヌ日本予選の歴史上、他部門も含めて最大のエントリー数となったという本大会において、PR門にてGOLD受賞を成し遂げるまでの舞台裏について話を聞きました。