YAMAGUCHI::weblog

海水パンツとゴーグルで、巨万の富を築きました。カリブの怪物、フリーアルバイター瞳です。

オブザーバビリティ(可観測性)がなぜ必要だと考えるのか

はじめに

こんにちは、Stackdriver担当者です。本記事は完全に個人の意見です。(念押し)

GCP的に担当製品がわかりやすいのでStackdriverの担当と書いてますが、仕事での担当領域的には「オブザーバビリティ (Observability、可観測性)」 です。この「オブザーバビリティ」という言葉が近年SREの文脈で語られることが増え、また今年に入って「入門 監視 ("Practical Monitoring" の日本語訳)」が刊行されたことで、日本でもより多く耳にするようになりました。

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

入門 監視 ―モダンなモニタリングのためのデザインパターン

入門 監視 ―モダンなモニタリングのためのデザインパターン

その「オブザーバビリティ」がなぜ必要だと考えるのか、自分なりに言語化してみました。

TL;DR

ハードウェア性能とシステムの開発スピードの向上、アプリケーションのコンポーネント化、パブリッククラウドサービスの普及により、システムの系全体の中でのアプリケーションの占める割合が大きくなった結果、オブザーバビリティの重要性が高まっている。

「オブザーバビリティ」の定義

「オブザーバビリティ」は昨今の盛り上がりによって耳にすることは増えたものの、その定義が明確に書かれていることが少ないので何を指しているのか、という疑問も同時に耳にします。しかし自分はそれは「マイクロサービスとはなにか」という疑問と同じ性質のもので、ある程度中心となる定義が徐々に認識されていき、定義の輪郭は人々によって違いがあるものではないかと考えています。

オブザーバビリティ(Observability、可観測性)という言葉は、最近のITシステム界隈では新しい概念として受け取られ、バズワードとして受け取られがちですが*1、自分は大学の学科が機械系だったこともあり、言葉そのものは馴染みがあるものとして受け取っていました。機械制御の分野ではオブザーバビリティ(可観測性)を次のように定義しています。

システムの出力からある時点でのシステムの内部状態を一意に知ることが出来る

これはコントローラビリティ(Controllabiliity、可制御性)と対をなす概念で、可制御性とは

システムへある入力を行うことで任意の最終状態に到達できる

と定義されています。

では、オブザーバビリティがITシステムの文脈で用いられる場合、一体どう定義できるでしょうか。この定義があやふやなのでバズワードと捉えられるのだと思いますが、私は次のような定義だと考えています。

オブザーバビリティとは、システムが運用する上で必要な内部状態の情報を取得できる状態にあること

つまりこれはシステムが持つ性質の性質の一つであり、たとえば

  • テスト可能性(Testability)
  • コンポーネント化可能性(Composability)
  • メンテナンス性(Maintenancability)

といった性質と同様に語られるべきものだと思います。*2

オブザーバビリティとモニタリング

基本的にITシステムは、自前で実装するプログラムや既存のアプリケーションの構成で作られるため、可制御性は担保されていると考えられるでしょう。*3

翻って、オブザーバビリティに関しては、アプリケーションのロジックには寄与しません。あくまでシステムに関わる側がシステムの内部状態を知る、あるいは振り返るためにログ、メトリクス、プロファイルといった出力を得られるように付加的に確保するものです。しかしながら、そうした性質を能動的に獲得していくことがオブザーバビリティには求められています。

オブザーバビリティと比較して挙げられる言葉で「モニタリング(Monitoring、監視)」があります。 "monitoring" は "monitor" の動名詞なので、語をそのまま捉えれば「監視をすること」です。これは運用者側の行為を捉えたものであり、システムの性質ではありません。

そういう意味で私は「オブザーバビリティ」と「モニタリング」は比較されること自体がおかしくて、本来は「モニタリングを円滑に行うためにオブザーバビリティを確保する」という形で、それぞれ車の両輪のようにお互いがあって成立する言葉だと考えています。

ではあえてなぜいまオブザーバビリティなのか

では、モニタリング(監視)自体は古くから行われていることなのに、あえてなぜいまオブザーバビリティという言葉が重要となっている(と考えられる)のでしょうか。それにはいくつかの理由があると考えています。

コンピューター性能の向上

計算資源がまだ潤沢でなかった時代では、アプリケーションそのものを動かすことですら性能的な制約が大きく、それ以外の負荷(外形監視やプロファイリング)を恒常的に行うこと(≒サンプリング)が制約上難しかったことがまず挙げられるでしょう。

また資源に対してハードウェア的な制限(ディスク、メモリ、ネットワーク)やOSやランタイム(JVMなど)といったアプリケーションの外側にあるもの(以下、簡単のため「インフラ」と呼ぶ)のシステム内での比重が特に大きかったこともあり、必然的にそちらに焦点を当てた監視が主流とされていました。

しかしながらコンピューター性能が向上し、システム全体においてのアプリケーションの比重が大きくなるにしたがって、アプリケーションそのものの監視の重要度も大きくなってきました。またアプリケーション以外に監視のためだけにエージェントを常駐させたり、外形監視を頻度高く行うことも可能となってきました。

アーキテクチャーの複雑化

またDevOpsが進み、それに伴ってコンポーネント化やコンテナ化が進む中で、昨今のようにマイクロサービスを導入する企業も少なくありません。そこまで行かなくても、アプリケーション、ミドルウェア、データベースと言った形でコンテナ化され、需要に合わせてインスタンス数を増減するといった構成も普通に採られるようになりました。

システム全体が分散したコンポーネント間の通信によって成立するようになり、あるリクエストを成立させるための一連のフローを追跡するためには、これまで見ていたようなインフラを主体とした監視よりも、コンポーネント間の依存関係と各コンポーネントでのボトルネックを視覚化するような監視の重要性が高まってきました。

実際2010年にDapperの論文が発表されてから、分散トレーシングは広く普及し、現在多くのAPM(Application Performance Management)バックエンドで採用されています。

これは、私はユニットテストの延長、あるいは実データを用いた結合テストの類だと考えています。実際コンポーネント間の依存関係が複雑になればなるほど、全体を通したテストを行うことは難しくなります。アプリケーション開発において、個々のコンポーネントではそれぞれ単体テストやシナリオテスト、あるいは負荷テストを継続的に行うことはだいぶ普及しているように思います。しかしながら、それらが複雑に絡み合ったシステム全体のテストはなかなか行えません。ステージング環境などでブラックボックステストを行っても、ユーザーではなく開発側が想定したシナリオで行っているため、実際にユーザーが行うリクエストを用いたテストはできません。

そういった背景において、ユーザーが作るリクエストを用いたテストとしてのオブザーバビリティという考え方ができるのではないでしょうか。

また同時に、複雑化したシステムを、少ない人数で効率よく運用するDevOpsであれば、そのための自動化のシグナルとして、システムから得られた指標を元にすることも必要になり、そのためにもオブザーバビリティは必要となるでしょう。

パブリッククラウドサービスの普及

マイクロサービスアーキテクチャに限らず、Kubernetesインスタンスオーケストレーションに利用する事例が増え、GCPのGKEをはじめ各社がKubernetesのマネージドサービスを展開し、アプリケーションがコンテナオーケストレーションの結果で捉えられる機会が増えています。さらに踏み込んで、Function as a Service のような形で、インフラを意識せずアプリケーションをモジュールとしてデプロイしていくことが当たり前になってきています。

このようなパブリッククラウドサービスを前提としたシステムになると、インフラそのものの管理よりも、その上で動くアプリケーションを動かすという方向に視点が移動します。監視をしていた対象が物理的なマシンから、一段抽象化されたコンテナであったり仮想マシンに変わり、インフラの運用者の役割も

  • 管理しているインスタンスの状態の管理
  • インスタンス上で動いている個々のアプリケーションコンテナの状態の監視
  • 連携しているコンテナ同士の状態の監視

という、いわば調停役のようなものに変わってきます。実際、パブリッククラウドを用いる場合、運用者はハードウェアを直接見ることはなく、個々のモジュールの役割に似た各種サービス(ストレージ、ロードバランサー、データベース、アプリケーションランタイムなど)が想定したとおりに稼働しているかを監視することが主な仕事となります。結局最終的にシステムに関わる人間全員が成し遂げたいことは「システム全体を健全な状態に保つ」ことなので、パブリッククラウドサービスに載せていくことでこのような視点の移動が起きるのは必然だと思います。

その上で、クラウドサービスの上に載せるアプリケーションにおいては、状態を知るためのオブザーバビリティ(ログ、メトリクス、プロファイル、トレースなど)の確保が肝心となってくるでしょう。つまりアプリケーション開発者がオブザーバビリティに必要なコードをアプリケーション内に書く(instrumentation: インスツルメンテーション)ことになります。

一方で、クラウドプラットフォームも、インフラを隠蔽した以上、運用担当者がその状態を意識できるように、各種サービスのオブザーバビリティをきちんと確保し、必要な情報を提供することがますます求められるでしょう。

システム運用者は、アプリケーションとクラウドプラットフォームの両者から得られる情報を整理し、管理していくことが仕事の上で大きな役割となります。

クラウドプラットフォームがモニタリングSaaSを提供する意義

自分はStackdriverというモニタリングSaaSを担当しています。他にも独立系のモニタリングSaaSは数多く存在していますが、そんな中でなぜクラウドサービス事業者がモニタリングSaaSを提供すべきなのでしょうか。

先にも述べたように、クラウドプラットフォームがインフラのインフラになっているいま、私はクラウドプラットフォームしか提供できない情報を提供する責務があるとともに、それをどういう形で確認すると運用者や開発者にとって有益であると想定しているかを示すためにもモニタリングSaaSを提供すべきだと考えています。

そうした形で提示することで、たたき台としてフィードバックが得られやすくなることも期待できるでしょう。先にも定義したように、オブザーバビリティというのはモニタリング製品を使うことではなく「必要な情報をどう取得するか」という部分に意味があると思うので、たたき台があることで多くの人が製品を利用することを通じて、必要な情報について考え、「問題解決のためにどういう情報がなぜ必要なのか」がフィードバックされることで、より運用しやすい環境が作られやすくなると思います。

オブザーバビリティについてワイワイやりたい

以上、つらつらと書いてきましたが、まだまだオブザーバビリティという言葉は普及段階です。ここから皆が手探りで進めて行くことになるかもしれません。しかし「オブザーバビリティ」それ自身はまったくの新しい領域というわけではなく、これまで「モニタリング」を行う上ですでに自然と行っていたような内容も多く含まれています。それらを踏まえつつ、今の時代のアーキテクチャーに合った形の指標の取り方を多くの人で共有できれば、普及を加速できるのではないかと思っています。

discord.gg

そういうことを@johtaniさん、@songmuさん、@ladicleさんなんかと話していて、なんか面白いことができそうという話になったので、勇み足かもしれませんが、「オブザーバビリティ」について意見が交わせられるような場が出来ればと思い、Discordのサーバーを立ててみました。まだ #general チャンネルしかありませんが、会話をする中自然と増えてくるかなーと思います。 特にここで話したいと思っていることは

  • オブザーバビテリティに関する問題とその解決案

です。イベントを企画してもいいのですが、平日夜だったり週末になってしまい参加しづらい人もいるでしょうし、地理的な条件で参加出来ない人もいるので、まずはオンラインメインでできないかなと考えています。オンラインで話したような内容をオンラインで共有できるような形にして、皆が参照できるようにして、そこからまた話が発展していけば最高です。オフラインイベントは、他の関連しそうなイベントにお邪魔したり、自分たちで開催するにしても、そこまで頻度の高さは考えずにできればいいなと思います。

とはいえ、最初からいろいろ考えてもしょうがないので、まずはオブザーバビリティに興味がある人が集まって、どのようなことに興味があるのか知りたいです。ぜひご参加ください!

おわりに

まだまだこれからもオブザーバビリティに関する議論はこれからも続くと思います。これからオブザーバビリティ界隈がどう盛り上がってくるか、楽しみです。

あときっと @songmu さんもオブザーバビリティに関する記事書いてくれるはず。

書かなかったこと

  • SREに関わる話(SLI・SLOやError Budgetの話)
  • サービスメッシュの話
  • メトリクスの標準化の話
  • E2Eモニタリングの話
  • 細かな製品の話
    • OpenCensus、Stackdriver、Istioなど

参照

「オブザーバビリティ」がなにかを考えるために過去に読んだ記事などのリストです。

書籍もいくつか

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

入門 監視 ―モダンなモニタリングのためのデザインパターン

入門 監視 ―モダンなモニタリングのためのデザインパターン

詳解 システム・パフォーマンス

詳解 システム・パフォーマンス

*1:オブザーバビリティという語の初出はTwitter Engineering blogだと記憶しています

*2:ソフトウェアのテスト可能性の中にもオブザーバビリティ(可観測性)が出てきますが、私は昨今の「オブザーバビリティ」はその延長であると解釈しています。

*3:実際は予期せぬ入力によって、予期せぬ出力が得られることがありますが、それを修正していくこと自体がソフトウェアの開発サイクルに入っていると思うので、ここでは担保されているものとします。

Raspberry Pi Zero WとStackdriver Monitoringで部屋の空気のモニタリングをする

はじめに

こんにちは、Stackdriver担当者です。同僚の @proppy と Pimoroni 見てたら、便利そうなHATとセンサーがあったので買って遊んでいます。

TL;DR

BME680で取得したデータをStackdriver Monitoringでダッシュボード作って見てみると楽しい。

BME680

BME680とは

BME680は、BOSCH製の空気質センサーで、この3mm四方の小さなセンサーだけで気温、湿度、大気圧、空気質が測定できます。

BME680

さらにこのセンサーのブレイクアウトがPimoroniから販売していて、I2Cを使って簡単に数値を読み取れるというわけです。

セットアップ

RaspberryPi Zero W は Raspbian (Stretch) が動いている前提です。

$ sudo apt-get install python3-venv i2c-tools read-edid libi2c-dev python3-smbus
$ python3 -m venv --system-site-packages .venv
$ .venv/bin/pip install bme680
$ wget https://raw.githubusercontent.com/pimoroni/bme680-python/master/examples/read-all.py
$ .venv/bin/python3 read-all.py

これでちゃんと数値が表示されたらBME680を無事に認識しているので準備完了。 これを使って部屋の気温、湿度、気圧、空気室などを記録してみます!

Stackdriver Monitoring へのデータの送信

Stackdriver Monitoringとは

Stackdriver Monitoringは、通常Monitoring Agentと呼ばれるエージェントをインスタンス上で実行し、システムやアプリケーションのメトリクスをサンプリングすることを想定しています。特によく利用されるデータベースやミドルウェアに関しては事前定義のメトリクスを簡単にStackdriver Monitoringに送信できます。

カスタム指標(カスタムメトリクス)

そして、もちろん自分のアプリケーションの状況を伝えるためのカスタム指標をエージェント経由で送信することもできますが、今回は別の方法としてStackdriver Monitoring API v3 を使って送信してみます。

cloud.google.com

今回は上のようにBME680のデータをPythonで取ってきているので、そのままPythonクライアントを使って送信しようと思います。

ライブラリセットアップ

上記に加えて google-cloud-monitoring のパッケージをインストールする必要がありますが、ここで一つ嵌りどころとして依存先の grpcio パッケージのインストールがあります。Raspberry Pi はSDカード上でOSを走らせているので、なるべくSDカードの寿命を延命させるために /tmp/var/tmp を tmpfs 上でマウントしたりします。自分も何も考えずにそうしていたのですが、これが grpcio パッケージのインストール時にネックとなります。

google-cloud-monitoring パッケージが依存している grpcio パッケージの最新バージョンは本記事執筆時当時は 1.19.0 です。執筆時の Raspbian Stretch でのデフォルトのPython 3のバージョンは 3.5 なのですが、上のPyPIのページを見るわかるように 1.19.0 には CPython 3.5 の ARMv6ターゲットの wheel がありません。 また piwheels を見ても 1.18.0 までは CPython 3.5 の ARMv6 ターゲットの wheel があるのですが、1.19.0 はありません。

そうなると手っ取り早い方法としては選択肢は2つなります。*1

  1. constraints.txt などで grpcio パッケージは 1.18.0 以前に固定(依存的には 1.8.0 以上であればよい)し、 --extra-index-url=https://www.piwheels.org/simple のオプションを pip install に加える
  2. grpcio 1.19.0 をローカルでビルドすることに決めて、 pip--build--cache-dir のオプションを /tmp 以外の場所に設定する

自分は新しいライブラリで問題ないかも確認したかったので grpcio 1.19.0 をローカルでビルドすることにして、何も設定せずにそのまま google-cloud-monitoring パッケージをインストールしました。(結構時間がかかる)

$ TMPDIR=$HOME/tmp .venv/bin/pip install --cache-dir=$TMPDIR/cache --build=$TMPDIR/build google-cloud-monitoring

1. メトリクスの作成

先に挙げたドキュメントのとおりなのですが、カスタムメトリクスを記録するためには、まずカスタムメトリクス自体をStackdriver Monitoringに登録する必要があります。 流れとしては

  1. Stackdriver Monitoringのクライアントのインスタンスを作成
  2. MetricDescriptorインスタンスを作成し、カスタムメトリクス名、メトリクスのタイプ、メトリクスの値の型、メトリクスの説明書き、メトリクスのラベルを設定
  3. クライアントに今作成した MetricDescriptorインスタンスを渡して、メトリクスを作成

のようになります。次は temperature というカスタムラベルを作成しています。実際にはセンサーが取得できる presssurehumiditygas_resistance についても同様に作成しています。

client = monitoring_v3.MetricServiceClient()
project_name = client.project_path(project_id)

descriptor = monitoring_v3.types.MetricDescriptor()
descriptor.type = "custom.googleapis.com/temperature"
descriptor.metric_kind = (
    monitoring_v3.enums.MetricDescriptor.MetricKind.GAUGE)
descriptor.value_type = (
    monitoring_v3.enums.MetricDescriptor.ValueType.DOUBLE)
rainfall_label = descriptor.labels.add()
rainfall_label.key = "rainfall"
rainfall_label.value_type = (
    monitoring_v3.enums.LabelDescriptor.ValueType.INT64)
rainfall_label.description = "rainfall observation report from weather forecast service"
descriptor.description = "room temperature"

descriptor = client.create_metric_descriptor(project_name, descriptor)

ここでメトリクスのラベルを設定していますが、これは取得するメトリクスに紐づいて取得時ごとに変化する付加情報を入れるためのものです。今回のサンプルでは温度や湿度を取るわけですが、その際に外の天気との関係性を知りたくなるでしょう。そのため、天気予報サイトから雨量の情報を取得し、 rainfall ラベルに入れることにしました。

実際のユースケースでは、例えばウェブアプリケーションの場合、「レスポンスデータのサイズ」をメトリクスにしていた場合、ステータスコードが400番台のものだけのグラフを作りたい場合に、「ステータスコード」をラベルとして設定しておきます。

またこの create_metric_descriptor はまったく同盟のメトリクスが存在する場合は特にエラーが起きず上書きされ、エラーになることはありません。(メトリクスが存在するかどうか事前に確認しなくても大丈夫です。)

これをプログラムの開始時にだけ1度実行します。

2. メトリクスデータの書き込み

こちらもドキュメントのとおりです。ある瞬間のセンサーデータを登録する場合の流れは

  1. TimeSeries インスタンスを作成
  2. カスタムメトリクス名、メトリクスのラベルの値を設定
  3. リソースのラベルを設定
  4. TimeSeries にメトリクスデータが入った Point を追加
  5. クライアント経由で TimeSeries をStackdriver Monitoringに送信
# 1. TimeSeriesの作成
series = monitoring_v3.types.TimeSeries()
# 2. カスタムメトリクス名、メトリクスのラベルの値を設定
series.metric.type = "custom.googleapis.com/temperature"
series.metric.labels['rainfall'] = fetch_rainfall()
# 3. リソースのラベルを設定
# https://cloud.google.com/monitoring/custom-metrics/creating-metrics#which-resource
series.resource.type = 'generic_node'
series.resource.labels['location'] = 'asia-northeast1-a'
series.resource.labels['namespace'] = RESOURCE_NAMESPACE
series.resource.labels['node_id'] = socket.gethostname()
# 4. `TimeSeries` にメトリクスデータが入った `Point` を追加
sensor = bme680.BME680() # 実際はプログラム起動時にインスタンス作成
sensor.get_sensor_data()
point = series.points.add()
point.value.double_value = value
now = time.time()
point.interval.end_time.seconds = int(now)
point.interval.end_time.nano = int(
    (now - point.interval.end_time.seconds) * 10**9)
# 5. クライアント経由で `TimeSeries` をStackdriver Monitoringに送信
client.create_time_series(project_name, [series])

リソースのラベルを設定する部分では generic_node を設定しています。(本来は global を設定すべきかも)リソースラベルはメトリクスラベルと違い、時間が経過してもそのデータを取得する上において変化しない属性を記録します。たとえば、マシンのホスト名などです。

どのリソースタイプでどのリソースラベルを設定するかは次のページに記載されています。

Point の追加で注意しなければいけないことは、TimeSeries を送信する際には Point が2つ以上含まれていてはいけないということ。公式ドキュメントを引用します。

When creating a time series, this field must contain exactly one point and the point's type must be the same as the value type of the associated metric. If the associated metric's descriptor must be auto-created, then the value type of the descriptor is determined by the point's type, which must be BOOL, INT64, DOUBLE, or DISTRIBUTION.

したがって、上のように Point を1つだけ追加しておしまいです。 *2

逆に TimeSeriesインスタンスはクライアント経由でまとめて送信できます。今回はセンサーで取れる値が温度、湿度、気圧、空気質の4つあるので、上と同じ流れで4つ TimeSeries をつくって、まとめて送信します。

これを10秒おきなど、定期的に実行します。

Stackdriver Monitoringの設定

以上のようなコードでデータをStackdriver Monitoringに送信し続けると、ダッシュボードでメトリクスとして選択できるようになります。

f:id:ymotongpoo:20190318084145p:plain

この自分で作成した custom/temperature のメトリクスを選択すると、送信されたデータを元に作成されたグラフが表示され、さらにFilterの項目ではリソースラベルとメトリクスラベルでの絞り込みができるようになっています。

f:id:ymotongpoo:20190318084514p:plain

それ以下、Aggregationの項目ではグラフの書き方などについての一般的な設定を行っていき、SAVEボタンでチャートを保存します。そのようにして以下、湿度、気圧、空気質に関しても同様に行っていくとダッシュボードが完成します。

f:id:ymotongpoo:20190318084736p:plain

部屋の温度が日の出とともにぐっと上昇する様子や、湿度が人間の生活時間に合わせて上昇する様子、今日は高気圧であるなとわかるなど、記録を取るだけでかなり面白かったです。次はこれを複数台に増やしてチャートに重ねてみようと思います。

参照

BME680

Stackdriver Monitoring V3

*1:他にも自分でQEMUを使ってビルドする方法などもあります

*2:Pointのintervalでend_timeしか設定していないのは、start_timeがoptionalだからです。詳細はproroファイルを参照。

好きなものづくり系YouTubeチャンネル

はじめに

こんにちは、Stackdriver担当者です。唐突にどうでもいいエントリーですが、日曜の夜なのでたまには息抜きもいいかなと思ったので、自分が好きなYouTubeチャンネルを紹介します。

Primitive Technology

www.youtube.com

このチャンネルは名前の通り、原始的な技術を実際に試してみるという動画です。一人の白人男性がボロいハーフパンツ一丁で出てきて、無言でひたすら穴をほったり、土を練ったり、葉っぱを編んだり、しながら家を建てたり、瓦を焼いたり、鉄を精製したり、というのを眺めるだけのチャンネルです。

このチャンネルを見てると、小さい頃に泥遊びや秘密基地ごっこをしていた思い出が蘇ってくるのですが、大人が本気をだすとこういうことになるのかと感心します。多くのフォロワーチャンネルも開設されていますが、やはりオリジナルというべき味わいがあるので、まずはこちらをチェックすることをおすすめします。

JSTサイエンスチャンネル (jstsciencechannel)

www.youtube.com

科学技術振興機構 が公開しているチャンネルなのですが、なぜかチャンネルタイトルをちゃんと設定してくれていないので、担当者の方がこの記事を見ることがあったらぜひチャンネルタイトルをわかりやすい日本語にしてあげてください。

さて、私は工場見学が好きで、普段見れないような施設を見学する機会があれば極力参加する類の人間なのですが、そんな自分が大好きで見ているのがこのチャンネルの「THE MAKING」シリーズです。

www.youtube.com

www.youtube.com

スペシャル版を除き、基本的に15分程度でいろいろな身近なものが作られる工程を動画で説明してくれます。個人的には食品系の回は面白いのでよく見ています。

たまにコメント欄が大盛り上がりすることがあり、コメントを読んでる間に動画が終わってしまうこともあります。またゆるい音楽と淡々とした字幕だけの解説のせいで催眠効果もかなりすごく、疲れていると冒頭の2分だけ見て寝てしまうこともあります。

Baumgartner Restoration

www.youtube.com

このチャンネルも趣としてはPrimitive Technologyと似ているのですが、美術館に飾ってあるような古い絵画をいかに再生させるかを事細かに説明しているチャンネルです。基本的には古い絵が出てきてそれを修理するだけなんですが、映像が綺麗なのと淡々としているので、流しっぱなしにしていてもうるさくないのが気に入っています。

次世代に繋ぐ伝統建築【先人の知恵を記憶する】

www.youtube.com

小林建工という愛媛の工務店が運営しているチャンネルです。小林建工の会社サイトの概要にあるように、日本建築の伝統技能の伝承に情熱を持っている方が代表を務めているようで、それもあってチャンネルには数多くの日本建築の技法を紹介する動画が掲載されています。最近更新されていないですが、1年前の更新の前は3年前だったりするので、気長に更新されるのを待っています。

Boston Dynamics

www.youtube.com

言わずと知れたBoston Dynamicsのチャンネルです。新型ロボットが公開されるたびに、今回はどんないじめ方でロボットの安定性テストをしているのだろうかと気になってしまいます。ほそぼそと更新が続いているので通知が来るのをいつも楽しみにしています。

Torbjörn Åhman

www.youtube.com

ひたすら工具を自作するところを撮った動画が載っているチャンネルです。鉄を熱くして、叩いて伸ばして穴を空けて、というのを淡々と長柄めているのはなかなかに心が落ち着きます。

おわりに

こういうものづくり系チャンネルが大好きなので、他にもおすすめがあったらコメント欄などで教えてください。

恵贈御礼「入門 監視」読了

はじめに

こんにちは、Stackdriver担当者です。年明けに「入門 監視」を恵贈頂いたのですが、書評を公開するのが遅くなってしまいました。すでに多くの方が書評を公開していらっしゃいますが、そちらは気にせず自分の書評をメモ代わりに書いておこうと思います。

入門 監視 ―モダンなモニタリングのためのデザインパターン

入門 監視 ―モダンなモニタリングのためのデザインパターン

TL;DR

  • 本書を読んでも即座に監視に関する問題が解決するわけではないが、システム監視について何から始めれば良いかわからない人はまず手にとるべき本であると思う。
  • 本書とSRE bookを読むことで同じ内容を異なる角度から捉える事ができ、非常に有益。

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

感想

全体として

  • 1章 監視のアンチパターン
  • 2章 監視のデザインパターン
  • 3章 アラート、オンコール、インシデント管理
  • 4章 統計入門
  • 5章 ビジネスを監視する
  • 6章 フロントエンド監視
  • 7章 アプリケーション監視
  • 8章 サーバ監視
  • 9章 ネットワーク監視
  • 10章 セキュリティ監視
  • 11章 監視アセスメントの実行
  • 付録A 手順書の例:Demo.App
  • 付録B 可用性表
  • 付録C 実践.監視SaaS

本書の目次を見て分かるとおり、前半で監視の設計手法や取り組み方に関してから始まり、後半でシステム内の各構成部品に対する監視の概要を見ていくという内容でした。よって、本書一冊ですべてが解決するという辞書のような使い方ではなく、本書で大まかに監視全体を把握するのに向いていると思いました。

特に今2019年現在において「監視」というのがどのような取り組み・行為なのかを解説した本として充実していました。現代での「監視」のスナップショットの確認として、さらっと一度流し読みするだけでも価値があると感じます。

システムアーキテクチャ・開発手法の変化による監視手法の変化

本書で最も特徴的であり、自分が大きく賛同した部分は、本書が「システムアーキテクチャや開発手法が変化したことにより、監視手法も変化してきている」という点を様々な角度から論じていた点です。

各章で語られていたことを簡単に抜粋してみます。

1.2 アンチパターン 2: 役割としての監視

監視とは役割ではなくスキルであり、チーム内の全員がある程度のレベルに至っておくべきです。(中略)監視の旅へ進むに当たって、皆が監視について責任を持つことを主張してください。

2.1 デザインパターン 2: ユーザ視点での監視

まず監視を追加すべきなのは、ユーザがあなたのアプリケーションとやり取りをするところです。

3.2.3 上手にオンコールローテーションを組む

ソフトウェアエンジニアもオンコールのローテーションに入れることを強くおすすめします。

5.4自分のアプリケーションにそんなメトリクスはないという時は

必要な計測データをアプリケーションが出してくれないなら、自分でアプリケーションを変更してしまいましょう。

6 フロントエンド監視

そして、時と共にパフォーマンスが悪くなってしまわないように、既存のツールにフロントエンド監視をどのように組み込んでいくのかを考え、この章の仕上げとします。

7 アプリケーション監視

アプリケーションのメトリクスはいろいろなことにとても便利に使えるので、なぜすぐ始めなかったのか不思議に思うくらいでしょう。

7.6 マイクロサービスアーキテクチャを監視する

マイクロサービスがあらゆるものを飲み込みつつあるこの世界では、優れた監視の仕組みを持つことは絶対条件になっています。

ざっくりと抜粋しているので、上記の引用だけでは読み取りづらい部分があると思いますが、私はこれらはすべてDevOps、さらにはSRE的なアプローチによって、アプリケーションとインフラを区別して捉えるのではなく、システム全体として期待されるとおりに稼働しているかを捉えることが重視されるようになったことが影響していると考えています。

またクラウド上でシステムを動作させることが増え、アプリケーションのモジュール化も進み、それに関わるインスタンスの台数も需要に応じて柔軟に増減するようになってきていることで、インスタンス自体のメトリクスよりも、アプリケーションに係るメトリクスが与える影響が大きくなっていることも関係があります。

これらによって、監視そのものが「インフラチームがアプリケーションランタイムの安定性を見る」という性質から「システム全体として期待した動作を行っているかの確認をする」という性質に大きく変化しています。当然その変化の中で、アプリケーションエンジニアが監視や運用に参加することの必要性も高まってきています。

そうした運用手法としてDevOpsを推し進めたものの一つがSite Reliablity Engineering (SRE) だと思いますし、そのような監視をどのように行うかというのを一貫して紹介したのが本書だと感じました。

また使用するランタイムの性能が向上していることもこれらを支える一助となっているでしょう。「1.1.1 監視とは複雑な問題をひとくくりにしたもの」の節のコラム「観察者効果は気にしない」には次のようにあります。

観察者効果とは(中略)技術分野では、監視ツールがシステムに負荷を加えてしまうことを指すことが多いですが、これは大した問題ではありません。今は2017年で、1999年ではありません。

Application Performance Management (APM) においては、トレース情報やプロファイル情報をサンプリングして取得する手法が主になっています。これらが許容されるようになったのはサンプリングを行ってもアプリケーションに与える影響が問題ないくらいマシンのCPUやメモリ、あるいはネットワークなどの性能が高まったからでしょう。

乱暴に言えば、クラウドではアプリケーションランタイムとしてのインスタンスは即座に上位性能のものに入れ替えられる一方でアプリケーション自体は、その開発フェーズが進めば進むほど、即座の置き換えが難しくなります。そうしたこともAPMなどといったアプリケーション側の監視の比重が高まってきている要因でしょう。

本書では「6章 フロントエンド監視」「7章 アプリケーション監視」と2章を割いて、アプリケーション側の監視の考え方を紹介していて、そういったものを導入しようとしている人向けに良い入門になっていると感じました。

SRE bookと重なる部分

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム

上のような理由から、同じオライリーで発刊されている「SRE サイトリライアビリティエンジニアリング―Googleの信頼性を支えるエンジニアリングチーム」(SRE book)の内容と重なる部分や、SRE bookでより詳細に説明されている内容なども見受けられました。いくつか抜粋します。

2.1.1 監視サービスのコンポーネント

ペナルティ事項の存在しないSLAは、むしろ「目指すべき目標」と一般的には捉えられます。

この用語を区別するためにSREではSLI、SLO、SLAとサービスにおける指標、目標、契約を呼び分けています。

1.5 アンチパターン 5: 手動設定

もし手順書が単なるやることの羅列なら、さらなる自動化が必要です。

3.1.6 まずは自動復旧を試そう

アラートに対する代表的なアクションが、既知でかつ用意されたドキュメントの手順に沿って対応するだけなら、コンピュータにその手順をやらせない理由はありません。

これはまさにトイルの撲滅そのものです。

3.4 振り返り

振り返りには良くない習慣があることに私は気づきました。それは誰かを非難するという文化です。

これに関してはSRE bookにある「非難のないポストモーテム (Blameless Postmortem)」にも詳細に書かれています。

監視とは、システムを見守るという行為なので、システムの信頼性を担保する役割であるところのSREチームには大きく関係するところであり、こうした内容が重なるのは当然でしょう。

しかしとはいえSRE bookはかなりの重量級(B5版 590ページ)です。ましてこれからそうしたことに取り組もうと思っている方は、読もうと思っても、その重量に圧倒されかねません。その点入門監視はA5版 200ページとあっさり読める内容です。深堀りはしていなくても、監視の全様を大まかに把握するにはうってつけです。本書を読んでから、あらためてSRE bookを読んでみるというのも手だと感じました。

付録C 実践 監視SaaS

私が本書が翻訳版として価値があると感じたのは、もちろん「付録 C 実践 監視SaaS」です。こちらは監視SaaSであるMackerelの @Songmu さんが書き下ろしとあって、監視SaaSの利点、信頼性、選定ポイント、利用方法について、本文でぼかされていた部分を一歩踏み込んで解説し、即座に実践に活かせる内容となっています。

私も冒頭で述べているようにGoogle Cloud Platformの Stackdriver という監視SaaSの担当をしているのでうなずくことばかりです。

Stackdriverにはロギング分散トレースプロファイラモニタリングダッシュボードエラーレポートデバッガといった製品群があります。 本書で触れられていた内容に関しては一通りカバーしている製品群で、特に特徴としてはまさに本書のような現代的な監視手法を導入しやすくしている点(例: ログベースメトリクスの作成、OpenCensus を利用したアプリケーションメトリクスの取得、分散トレース、フレームグラフが見えるプロファイラなど)です。

これも主にGCP上でシステムを動かす開発者・運用者が、即座にSRE的な監視を行える機能を提供するという目的があって開発されているためです。(たとえばGoogle App Engine Standardでは分散トレースやログベースメトリクスなどはインストゥルメンテーション無しで即座に行えるようになっています)

クラウドプラットフォーム事業者が監視SaaSを提供する利点は、一番下のレイヤーまでできるだけ多くの情報を提供でき、他のサービスとの連携も図りやすい点にあります。(先程のGAEの例をはじめ、GKEでもアプリケーション側のインストゥルメンテーションのみでロギングや分散トレースやプロファイラとの連携可能です)

この付録Cを通じて、監視SaaSを導入する企業が増え、Stackdriverにもより多くのフィードバックが来ることを期待しています。GCPUG Slack の #stackdriver チャンネルにいますので、利用してみて疑問に感じたことがあればぜひ来てください!

gcpug.jp

参照

OpenCensus + Stackdriver Trace で分散トレース上にログを表示する

はじめに

こんにちは、Stackdriver担当者です。いま出張でアメリカ西海岸に来ていますが、時差ボケで破滅しています。

GCPUG Stackdriver Day January 2019でStackdriverを使った分散トレースにログを埋め込む話をしたんですが、スライドだけだともったいないと言われたのでブログの記事にもしておこうかと思います。

OpenCensusとはなにか

そもそもOpenCensusを知らないという人もまだ多いと思うので、まずそこから紹介します。OpenCensusは分散アプリケーションのメトリクスとトレースを取得するためのライブラリ群です。

opencensus.io

分散トレースのライブラリは各種APMサービスがそれぞれクライアントライブラリを出していますが、OpenCensusが特徴的なのは、TraceやStatsを取得する部分と、取得されたデータをバックエンドに送信する部分(exporter)が別れているので、バックエンドを切り替える際もexporterのインスタンスの初期化だけ書き換えれば動作するようになっていることです。また自分で独自のexporter(例: 標準出力に記録するだけのexporter)を書くこともできます。

現在 OpenCensus をサポートしているAPMツールはこちらに一覧として載っています。

opencensus.io

また今後の方向性としては OpenCensus Agent を通じてデータを送信するように変更し、これによって OpenCensus Agent 側で exporter を切り替えるだけでバックエンドが変更できるようになり、切り替えのためにソースコードを変更しなくて良くなるようにしていく予定になっています。

Stackdriver Trace

Stackdriver Trace は Google Cloud Platform が提供する APM (Application Performance Management) ツールの一つですが、特に分散アプリケーションのトレース(分散トレース)を主力機能として提供しています。Stackdriver Trace はクライアントライブラリとして OpenCensus を利用するように推奨しています。推奨しているということは当然 exporter もあります。

github.com

OpenCensusを使ってStackdriver Traceを利用する場合、Goではinstrumentationは次のようになります。

Stackdriver Trace のタイムライン内にログを埋め込む

上のサンプルのように各アプリケーション(例えばGKEクラスタで動かしている各サービス)で Trace と exporter の設定をしてからリクエストを投げてやると、次のような形で分散トレースを生成できます。

f:id:ymotongpoo:20190212082459p:plain

これでもマイクロサービス内のどこで処理時間がかかっているか簡単にわかりますが、このタイムラインの中で各Span(各サービスで行われる処理のまとまり)内で起きたイベントを確認できると便利そうです。Stackdriver Trace では Stackdriver Logging へ送信された構造化ログの中に次の2つのフィールドに適切な値が入っていた場合、そのログを Stackdriver Trace の中に表示させることができます。

  • logging.googleapis.com/trace
  • logging.googleapis.com/spanId

これら2つのフィールドに必要な Trace ID および Span ID はそれぞれHTTPヘッダやgRPCの特殊フィールドに埋め込まれていて、通常は OpenCensus のライブラリがよしなに取得できるようにしてくれています。再び Go の例で書けば次のような操作で取得できます。

func (ap *arrayParseServiceServer) Parse(ctx context.Context, pr *pb.ParseRequest) (*pb.ParsedArray, error) {
    span := trace.FromContext(ctx)
    sc := span.SpanContext()
    l := logger.WithFields(logrus.Fields{
        "logging.googleapis.com/trace": sc.TraceID.String(),
        "logging.googleapis.com/spanId":  sc.SpanID.String(),
    })
    ...
}

GKEではStackdriver Logging のエージェントが自動設定されるので、標準出力に構造化ログを出力するだけで Stackdriver Logging に送信されます。上記のフィールドに正しい値が入ったログが Stackdriver Logging に送信されると、Stackdriver Trace がそのログの中にある Trace ID と Span ID をトレースに紐づけ、タイムライン内に表示します。(タイムライン右上に [Show/Hide Logs] というボタンが表示され、ログの表示/非表示を切り替えられるようになります。)

f:id:ymotongpoo:20190212083746p:plain

またタイムライン内のログをクリックすると、画面右下に構造化ログ全体が表示されます。

f:id:ymotongpoo:20190212084113p:plain

この機能はGAEを使っていた方にはおなじみだったかもしれませんが、GKEを使っている場合においてもちょっと手を加えるだけで使えるようになるので、GKEで分散トレースを考えている場合にはぜひ利用してみてください。

参照