SRE NEXT 2025に参加しました

こんにちは。最近はインターナショナルスクールで働く奥さんが、夏休みで毎日ソファーでNetflixと過ごしているのを羨ましく過ごしています、P山です。本日は先日参加したSRE NEXT 2025について、聴講したセッションや、イベントの内容について紹介します。

SRE NEXT 2025とは

信頼性に関するプラクティスに深い関心を持つエンジニアのためのカンファレンスです。 同じくコミュニティベースのSRE勉強会である「SRE Lounge」のメンバーが中心となり運営・開催されます。 SRE NEXT 2025のテーマは「Talk NEXT」です。SRE NEXT 2023で掲げた価値観 Diversity、Interactivity、Empathyを大切にしつつ、SREの担う幅広い技術領域のトピックや組織、人材育成に対してディスカッションやコミュニケーションを通じて、新たな知見や発見を得られる場にします。(https://sre-next.dev/2025/ より引用)

今年のテーマは「Talk NEXT!」が掲げられており、当日は通常のセッションやスポンサーブースに加えて、アンカンファレンスが開催されていたり、事前イベントとして、地方行脚のRoad to SRE NEXT 2025も開催されていました。

今年の目玉の1つとして、「詳解 システム・パフォーマンス」の著者であるBrendan Greggさんの基調講演があり、P山はこの情報をキャッチした瞬間に上司である@toku_bassさんに「Brendan Greggさんの基調講演があるので、SRE NEXT 2025に行きたいです!」と伝え、参加を決めました。

うそです、厳密には、即航空券まで予約してしまいました。

セッション

Fast by Friday: Making performance analysis fast and easy by Brendan Gregg

初日はオープニングのあとすぐにBrendan Greggさんの基調講演が始まりました。Brendan Greggさんは、システムパフォーマンスの専門家であり、彼が書いた「詳解 システム・パフォーマンス」は「Linuxプログラミングインターフェース」と並び、P山のローレイヤー領域のバイブルとなっています。

当日のセッションはFast by Fridayというテーマで、自社のサービスで起こるパフォーマンスの問題を月曜から金曜5日間で解決するにはどういったものが必要なのか、それらを曜日ごとに分けて、いくつかのレイヤーに分けて解説されていました。

P山自身は英語が壊滅的に苦手なため、自動翻訳を利用しても内容のすべてを理解するのに苦労しましたが、何故かBrendan Greggさんのジョークは英語がわからなくても伝わってきました。

当日のセッションは下記のYouTubeのものがかなり近いので見てみてください。

P山自身が印象に残ったのは、彼がNetflix社時代に多くのツールを作り、それは難しいが、彼以外の人によって使われているという話でした。パフォーマンスの領域においても自分に必要な道具を作り、そしてそれを広く使えるものにするという姿勢は、P山自身も見習うべきだと感じました。

Rethinking Incident Response: Context-Aware AI in Practice by Ryota Yoshikawa

諸問題があり、なかなかセッションに参加できなかったP山ですが、少し時間ができて、Ryota Yoshikawaさんの「Rethinking Incident Response: Context-Aware AI in Practice」というセッションに参加しました。

内容としては、DORAやSRE Reportの内容を踏まえ、インシデント・レンスポンス(IR)が開発チームやSREの成熟度を図る指標として重要である、しかし、それは簡単なことではないので、AIを活用してIRを効率化するというものでした。

彼らが開発しているWaroomではSentryからのフックをもとに、障害チャンネルを作成し、原因の調査や、FIXまでをAIを活用して実現するというアプローチをとっているとのことでした。セッション中、それなりに「これはベストケース」という発言があったことと、P山の経験から全部が全部うまく行くわけではないだろうと感じましたが、近年AIの性能もかなり上がっているので、それなりに解消できるケースもあるのであろうと思いました。

GOでもSlackを活用したインシデントレスポンスの支援の取り組みを行っているので、非常に参考になりました。

すみずみまで暖かく照らすあなたの太陽でありたい by 戸田 宏司さん

諸般の事情で、1日目は2つのセッションしか参加できませんでしたが、2日目はしっかりとセッションに参加しました。 戸田 宏司さんの「すみずみまで暖かく照らすあなたの太陽でありたい」というセッションは、ヨドバシカメラ社におけるオンプレミス型プライベートクラウドの詳解でした。正直小売でここまで自社で作り込んでいるのかという驚きと、アーキテクチャも堅牢に作り込まれており、非常に参考になりました。

またほとんどオンコールがなく運用できているという発言もあり、小売は転売目的の大量アクセスなども発生しやすい領域なのに、そういった運用ができているということは、かなりのリソースと技術力があるのだなと感じました。

ABEMA の本番環境負荷試験への挑戦 by 宮﨑 大芽さん

ABEMA TV社の宮﨑 大芽さんの「ABEMA の本番環境負荷試験への挑戦」は、ABEMAの本番環境での負荷試験を行うために、どのような取り組みを行っているかというものでした。

内容としては、ABEMAのような動画配信サービスにおいて、負荷試験を行うことは非常に難しいが、実際に本番環境で負荷試験を行うために、Operatorを開発し、本番環境の構成から負荷試験環境を構築し、実際に負荷試験を行うというものでした。

DBの領域は共有しているとのことだったので、実際にパフォーマンスの問題があると、本番環境に影響が出る可能性があリそうな気がしましたが、k6の機能を利用して、性能を下回った段階で負荷試験を停止できるとのことでした。

システム運用をしていると、

「〇〇をしたいのですが、この時間に大量にアクセス来ても大丈夫ですか?」

とエンジニアリング部門外から聞かれることがたまにあるので、そういったときに直近の実績が出せるのもとても便利そうだなと思いました。

システム障害対応のツマミになる話 by 木村 誠明

「システム障害対応の教科書」の著者である木村さんの基調講演でした。内容はオフラインイベントならではの軽妙なトークで、聞き手を引き込みながらインシデント対応の要所をおさえるような素晴らしいセッションでした。

特に話し手のこれまでの経験からくるエピソードを随所に交えながら、なぜそれが重要なのかを説明していくスタイルは、非常にわかりやすく、また聞き手を飽きさせないものでした。

P山自身もおもわず「システム障害対応の教科書」をその場でサブミットしてしまいました。現在GOにおいてもインシデントレスポンスの内容や質を向上するために、様々な取り組みを行っているので、非常に参考になりました。

懇親会

2日目のセッション終了後には会場であったTOC有明の20階にて懇親会が開催されました。ここでも各社スポンサーが趣向を凝らしたブースを出展しており、P山は各社のブースを回りながら、いろいろな方とお話しすることができました。

  • ご飯もとっても美味しかったです

そのあとは有志でBrendan Greggさんを囲み、新橋で親交を深めたりしました。 また最後は『GO』アプリで注文したタクシーでBrendan Greggさんを送り出すことができ、自身の開発しているサービスを憧れの開発者に利用してもらえたのもとても嬉しかったです。

最後に

P山自身は現在はSREという職種ではなく、バックエンドエンジニアとして働いているのですが、バックエンドエンジニアでもSREの取り組みは必要ですし、むしろ自分がSREとして働いていたときより、こうしたほうがお互いやりやすいみたいな角度が見えたりして、サービスをより良く安定して動かすための取り組みをSREチームと連携して進めています。

今回得た知識、経験、刺激をガソリンに、今後も日本のモビリティをより良くするために、また頑張ろうと思いました。 次はなにかセッションで自身が話せるようにやっていきます。

最後に、開催にあたり尽力してくださった、すべての方へ感謝して、締めとします。

ありがとうございました!