しばやん雑記

Azure とメイドさんが大好きなフリーランスのプログラマーのブログ

Azure VM のセルフサービスメンテナンスを実施してみた

2018 年になってすぐに Azure のプラットフォーム側のアップデートという非常に大きなイベントがあります。ホスト OS が Windows Server 2016 ベースになるという話だったので期待してました。

日本語の公式ブログで翻訳が公開されているので、まずは読んでおいたほうが良いでしょう。

再起動を伴う仮想マシン メンテナンスへの新しいエクスペリエンス – Japan Azure Technical Support Engineers' Blog

[告知] 2018 年 1 月 2 日より Azure IaaS 仮想マシンのメンテナンス期間が開始します – Japan Azure Technical Support Engineers' Blog

公式ドキュメントにもメンテナンスに関して通知を受ける方法などが書いてあります。

基本的には可用性セットを組んでおけば、更新ドメイン単位で処理が行われるのでサービスはダウンしないはずですが、とはいえ必ず再起動が行われるので VM で運用しているケースでは悩ましいでしょう。

今回のケースに合わせて期間中なら任意のタイミングでメンテナンスを実行できる機能が用意されると聞いたので、体験するためだけに VM を立ち上げて待っておきました。

そして今日になって Azure Portal を確認すると、きっちりとメンテナンス通知が来ていました。

f:id:shiba-yan:20171229005519p:plain

セルフサービスメンテナンスが可能な期間は 2 週間ちょっとなので、年が明ける前に終わらせておいた方が安心して過ごせそうですね。ちなみに可用性セットを組んでいる場合は実行しない方が良いらしいです。

表示されている通知をクリックすると、メンテナンスのタイムラインとセルフサービスメンテナンスを実行するためのボタンが表示されます。

f:id:shiba-yan:20171229005434p:plain

メンテナンス用に実行しておいた VM なので、迷うことなくメンテナンスを開始しました。

f:id:shiba-yan:20171229005722p:plain

5,6 分でメンテナンスが完了して、Azure Portal には完了したという通知が表示されました。実際には VM を止めて、別のホストに移して起動してるだけっぽいので割と短時間で終わります。

f:id:shiba-yan:20171229010253p:plain

VM からすれば変化は全くわからないですが、アップデートは必須なので淡々と行いましょう。

メンテナンスを実行する前に IP アドレスを確認するのを忘れてしまっていたので、今回のセルフサービスメンテナンスでパブリック IP が変わるのか確認できなかったのが残念です。

ASP.NET Core で Azure AD B2C を使った際に謎のエラーが多発する問題

ASP.NET Core の OpenID Connect Middleware を使って Azure AD B2C なログインを GitHub で公開されているサンプルとほぼ同じように実装したら、よくわからないエラーが多発して困ったという話です。

実際に Application Insights からデータを引っ張ってきました。本番のデータなので URL は隠しました。

f:id:shiba-yan:20171226003014p:plain

エラーメッセージの内容自体は Remote Authentication Handler が自動的に使っている CSRF 対策のクッキー検証に失敗したというだけなんですが、正直なところこのエラーの発生率は異常でした。

よくわからないし、実害あまりなさそうなので放っておいたのですが、件数多いし何とか対応しないといけない機運になったので、詳細に調べてみました。GitHub にも Issue がいくつか上がっているようでしたが、決定的な原因と言えるものは見当たらず。

再現しないなーと思っていたら、ブラウザで戻った時に発生するという話が Stack Overflow で見つかったので、あーこれが原因なんだろうなとほぼ確信しました。

signin-oidc に戻ってしまった場合にエラー画面に飛ぶのは、明らかに問題が多いです。理想的な挙動としては Correlation failed の場合はもう一度サインイン画面に飛ばすべきでしょう。

エラー時の処理は OnRemoteFailure イベントを使えばよいので簡単です。AAD B2C のサンプルでは以下のようなイベントハンドラが登録されています。

public Task OnRemoteFailure(RemoteFailureContext context)
{
    context.HandleResponse();
    // Handle the error code that Azure AD B2C throws when trying to reset a password from the login page 
    // because password reset is not supported by a "sign-up or sign-in policy"
    if (context.Failure is OpenIdConnectProtocolException && context.Failure.Message.Contains("AADB2C90118"))
    {
        // If the user clicked the reset password link, redirect to the reset password route
        context.Response.Redirect("/Session/ResetPassword");
    }
    else if (context.Failure is OpenIdConnectProtocolException && context.Failure.Message.Contains("access_denied"))
    {
        context.Response.Redirect("/");
    }
    else
    {
        context.Response.Redirect("/Home/Error?message=" + context.Failure.Message);
    }
    return Task.FromResult(0);
}

context.Failure.Message に Correlation failed が含まれていたら、サインイン画面にリダイレクトするように条件を追加すればよい感じですね。

Correlation failed とは別に、AAD B2C 固有っぽいエラーも発生していました。これもまた Application Insights から本番のエラーデータを引っ張ってきました。

f:id:shiba-yan:20171226004832p:plain

何故か改行コードがヘッダーに混ざっていると言ってます。まあ、普通はあり得ないです。

調べてみるとどうやら AAD B2C が返すエラーメッセージは改行されているものがあるらしく、Redirect で URL エンコードしていないサンプルコードのせいで発生していたみたいです。

public Task OnRemoteFailure(RemoteFailureContext context)
{
    context.HandleResponse();
    // Handle the error code that Azure AD B2C throws when trying to reset a password from the login page 
    // because password reset is not supported by a "sign-up or sign-in policy"
    if (context.Failure is OpenIdConnectProtocolException && context.Failure.Message.Contains("AADB2C90118"))
    {
        // If the user clicked the reset password link, redirect to the reset password route
        context.Response.Redirect("/Session/ResetPassword");
    }
    else if (context.Failure is OpenIdConnectProtocolException && context.Failure.Message.Contains("access_denied"))
    {
        context.Response.Redirect("/");
    }
    else if (context.Failure.Message.Contains("Correlation failed"))
    {
        context.Response.Redirect("/Session/SignIn");
    }
    else
    {
        context.Response.Redirect("/Home/Error?message=" + WebUtility.UrlEncode(context.Failure.Message));
    }
    return Task.FromResult(0);
}

ちゃんと URL エンコードしてから渡すことでエラーは発生しなくなりました。

そもそもこの処理が必要かどうかは別の話なので、実際の場合は汎用的なエラー画面を出しておきつつ、内部では Application Insights にテレメトリを送っておけば良いです。

App Service の Japan East / West にも Windows Server 2016 がデプロイされていました

手持ちの App Service を確認したところ、初期に Japan East に作成した App Service が Windows Server 2016 にアップグレードされていました。数日前に Japan West にはデプロイされていたので、Japan East でも開始されたみたいです。

ちゃんと Windows Server 2016 と .NET Framework 4.7.1 になっています。

f:id:shiba-yan:20171223010156p:plain

今回の OS アップグレードはペアリージョンで同時には行わないと宣言されていたので、既に Japan West に関しては完了していると考えて良さそうです。East はスタンプによってはまだ 2012 のままです。

アップグレードに伴い基本的な変更点に関しては、前回 West Central US で試した時のエントリを参照してください。ちなみに HTTP/2 は Japan East / West では予定通り無効になっています。

普段使いしていた App Service が Windows Server 2016 になったので、アプリケーションの互換性を少し見ておこうかなという気持ちになりました。

In/Out IP アドレスは変わるのか?

僕の尊敬する田口社長が Windows Server 2016 へのアップグレードに伴って IP アドレスが変わるのか心配していたので、2016 にアップグレードされた Web App で確認しておきました。

App Service Plan は S2 を使っていて、A レコードを当てていたので確認は簡単です。変更なしです。

f:id:shiba-yan:20171223010531p:plain

地味に気になるのが Outbound IP ですが、こちらもフォーラムで公開されている IP と現在の IP を比較したところ、変更はされていませんでした。なので安心してアップグレードを待てばよいでしょう。

恐らく大半の人は Windows Server 2016 にアップグレードされたことに気が付かないはずです。

2012 と 2016 で設定の違いはない

運よく Japan East に Windows Server 2012 と 2016 の Web App が用意できたので、applicationHost.config 周りで Diff を確認してみましたが、特に変化はありませんでした。

1 点挙げると、Azure App Service のランタイムバージョンが 2016 の方が新しくなっていたので、不具合の修正などが行われている可能性があります。

TCP Fast Open は無効

HTTP/2 よりも互換性面で影響が大きそうだったので有効化はされていないと思ってましたが、一応軽く確認だけしておきました。TCP Fast Open は無効となっています。

f:id:shiba-yan:20171223022016p:plain

Windows Server 2016 の Networking Stack 自体がもうちょっと検証されないと難しそうな気もしますが、今後に期待ということで適当にまとめたいと思います。

Azure Functions Runtime を Intel NUC にインストールした

自宅で Windows Server 2016 用として動かしていた Intel NUC を流用して、Windows 10 Pro をインストールし直し Azure Functions Runtime の環境に作り変えました。

Windows Server 2016 より Windows 10 Pro の方が FCU が扱いやすいので、個人的にお勧めしてます。ドキュメントには Creators Update と書いてましたが、FCU でも問題なく動きました。

インストールの詳細な手順はドキュメントに任せて、自分がはまった部分だけ軽く書いておきます。

Azure Functions Runtime をインストールして、セットアップを行っている途中に SQL Server と接続する必要があります。ドキュメントには書いてないですが、TCP を有効にしないと繋がらないみたいでした。

サーバー名も最初 localhost や .\SQLEXPRESS など試行錯誤しましたが、SQL Browse サービスが動いてないので名前付きインスタンスは TCP で使えず、結局マシン名だけで良いという結論でした。

f:id:shiba-yan:20171219234614p:plain

書いてある通りに sysadmin の権限を持ったログインを作っておく必要があります。データベースの prefix は空っぽで問題なかったのでそのままにしました。

後は設定を順番にポチポチしていけばはまることなく完了します。最後にポータルを開けば完了です。

f:id:shiba-yan:20171219234646p:plain

Function Portal は Windows 認証を使っているみたいなので、Windows へのログインユーザーとパスワードで入れます。Windows 認証をアプリではあまり使ったことないですが、地味に便利。

ログインすると、Azure Portal っぽさある画面になります。

f:id:shiba-yan:20171219234705p:plain

書いてある通りに、最初にサブスクリプションを作成します。将来的には Function の上限をサブスクリプション単位で指定できるのかもしれないですが、今は単なる入れ物っぽいです。

選べる項目も DefaultPlan しかないので、適当に名前を付ければ OK です。

f:id:shiba-yan:20171219234734p:plain

ローカルマシンに対する処理なので、一瞬で作成などは完了するのが新鮮です。

サブスクリプションを作成したら Function App を作成します。この辺りからは普通の Azure Functions と変わりないですが、作成時に Function Runtime のバージョンを選べます。

f:id:shiba-yan:20171219234749p:plain

.NET Framework を選んだ方が選べるトリガーが多いですが、例によって Server Core で実行されるので多少重いです。.NET Core の方は Nano Server なので有利ではあります。

f:id:shiba-yan:20171222115512p:plain

ちなみに HttpTrigger 系はありません。なので多少デバッグが行いにくいですが、大体の場合は TimerTrigger で動作を確認すればよい感じです。

実際に TimerTrigger な Function を作成すると、いろいろと興味深いログが出力されています。

f:id:shiba-yan:20171222115736p:plain

今の App Service のように ACL でサンドボックスを頑張るのではなく、Docker を利用して環境への依存を減らしつつ、Hyper-V Containers を使った高度な分離まで実現出来ているようです。

同時にインストールされる Command Pronpt ショートカットを管理者として起動すれば、Docker コマンドを使ってもうちょっと中身を詳細にみることが出来ます。

f:id:shiba-yan:20171222115819p:plain

Creators Update を対象としているので、FCU からの軽量化されたイメージが使えていないのは残念ですが、Azure Functions Runtime に App Service の未来を見た気がしました。

Windows Containers ベースの App Service への期待が個人的に高まっています。

Cosmos DB の SQL クエリパフォーマンスを調査する

仕事で Cosmos DB を使っていますが、最近は RU の消費が気になってきて、実際に投げたクエリがどのように実行されているのか知りたくなったので、例によっておーみさんに聞きました。

実行計画とはいかなくとも、非常に参考になるメトリックを返してくれるようになっているみたいです。

インデックスが本当に使われているのかどうかも、このメトリックから読み取れるようになってます。

ドキュメントを読めば大体わかりますが、FeedOptions で PopulateQueryMetrics = true とするとレスポンスにクエリの実行にかかった諸々の時間やデータサイズなどが返ってきます。

百聞は一見に如かずということで、適当なデータを作成して試してみました。まずは普通にインデックスが効いているであろうというケースです。

RDB でもインデックスを普通に作れば、Index Seek で引けるはずですね。

var feedOptions = new FeedOptions
{
    MaxItemCount = 1,
    EnableCrossPartitionQuery = true,
    PopulateQueryMetrics = true
};

var documentQuery = Client.CreateDocumentQuery<MemberDocument>(UriFactory.CreateDocumentCollectionUri(DatabaseId, CollectionId), feedOptions)
                            .Where(x => x.Email == "test-1@example.com")
                            .AsDocumentQuery();

var response = await documentQuery.ExecuteNextAsync<MemberDocument>();

foreach (var item in response.QueryMetrics)
{
    var data = JsonConvert.SerializeObject(item.Value, Formatting.Indented);
}

インデックスの作成ポリシーはデフォルトのままなので、当然ながら Email に対してもインデックスが作成されています。それではインデックスが実際に使われているのかを確認してみます。

QueryMetrics の中身を表示するのが面倒だったので、適当に JSON にしたものを貼り付けておきます。

{
  "TotalTime": "00:00:00.0006100",
  "RetrievedDocumentCount": 1,
  "RetrievedDocumentSize": 853,
  "OutputDocumentCount": 1,
  "IndexHitRatio": 1.0,
  "QueryPreparationTimes": {
    "CompileTime": "00:00:00.0000600",
    "LogicalPlanBuildTime": "00:00:00.0000200",
    "PhysicalPlanBuildTime": "00:00:00.0000300",
    "QueryOptimizationTime": "00:00:00"
  },
  "QueryEngineTimes": {
    "IndexLookupTime": "00:00:00.0003000",
    "DocumentLoadTime": "00:00:00.0000200",
    "WriteOutputTime": "00:00:00.0000200",
    "RuntimeExecutionTimes": {
      "TotalTime": "00:00:00.0000100",
      "SystemFunctionExecutionTime": "00:00:00",
      "UserDefinedFunctionExecutionTime": "00:00:00"
    }
  },
  "Retries": 0
}

データの意味はドキュメントとキー名を見ればわかると思います。インデックスが使われているかどうかは IndexHitRatio と IndexLookupTime の値を見れば良いです。それぞれが 1.0 と 0.3ms となっているので、インデックスはちゃんと使われています。

ちなみに Time で終わるキーの値が 00:00:00 の場合は実行されていない扱いです。なので今回の場合は QueryOptimizationTime や Function の呼び出しが該当します。

Cosmos DB のインデックス周りは優秀みたいで、効かないかと思った条件でも割とインデックスが使われていました。しかし、SQL で言う LIKE の場合はスキャンになるみたいなので試しました。

var feedOptions = new FeedOptions
{
    MaxItemCount = 1,
    EnableCrossPartitionQuery = true,
    PopulateQueryMetrics = true
};

var documentQuery = Client.CreateDocumentQuery<MemberDocument>(UriFactory.CreateDocumentCollectionUri(DatabaseId, CollectionId), feedOptions)
                            .Where(x => x.FirstName.Contains("kazuakix98"))
                            .AsDocumentQuery();

var response = await documentQuery.ExecuteNextAsync<MemberDocument>();

foreach (var item in response.QueryMetrics)
{
    var data = JsonConvert.SerializeObject(item.Value, Formatting.Indented);
}

こういう条件の場合は Azure Search を使えといわれそうですが、適当に試した感じではこれぐらいしかスキャンにならなかったので勘弁してください。

そして QueryMetrics の中身は以下の通りです。IndexHitRatio と IndexLookupTime に注目。

{
  "TotalTime": "00:00:00.0008900",
  "RetrievedDocumentCount": 100,
  "RetrievedDocumentSize": 85643,
  "OutputDocumentCount": 1,
  "IndexHitRatio": 0.01,
  "QueryPreparationTimes": {
    "CompileTime": "00:00:00.0000800",
    "LogicalPlanBuildTime": "00:00:00.0000400",
    "PhysicalPlanBuildTime": "00:00:00.0000300",
    "QueryOptimizationTime": "00:00:00"
  },
  "QueryEngineTimes": {
    "IndexLookupTime": "00:00:00",
    "DocumentLoadTime": "00:00:00.0003200",
    "WriteOutputTime": "00:00:00.0000200",
    "RuntimeExecutionTimes": {
      "TotalTime": "00:00:00.0002100",
      "SystemFunctionExecutionTime": "00:00:00.0000400",
      "UserDefinedFunctionExecutionTime": "00:00:00"
    }
  },
  "Retries": 0
}

全くインデックスが使われていないことが分かります。その代わりにスキャンが行われているので、DocumentLoadTime に割と時間がかかっていることも見て取れますね。

RetrievedDocumentCount が 100 となっているので、1 件を返すために 100 件をスキャンしていることも分かります。これだと RU も消費するし、時間もかかってくるので改善が必要となります。

RU と同じように Application Insights に送りたいのですが、PopulateQueryMetrics のオーバーヘッドがどのくらいなのかわからないため、ちょっとローカルのみで検証して様子見です。

Windows Server 2016 になった Azure App Service を試す

GitHub の Issue を眺めていたら、West Central US の App Service には Windows Server 2016 をデプロイしたと書いてあったので、早速新しく Web App をデプロイして試していました。

中の人曰く、West Central US をテストの場として使っているみたいです。ちゃんと 2016 です。

f:id:shiba-yan:20171212225301p:plain

軽く触ってみましたが、当然ながら構成は全く同じです。なので互換性を気にする程ではないです。

Kudu API に OS の名称とビルド番号を返す機能が追加されたので、それを使って使われているバージョンを詳細に取ってきました。この辺りは予告通りですね。

14393.1794.amd64fre.rs1_release(bryant).171110-1651

ちまちま確認するのはアレなので、GitHub に置いてあるバージョンなどをいい感じに表示するアプリをデプロイして、サクッと確認してみました。

f:id:shiba-yan:20171212230532p:plain

f:id:shiba-yan:20171212231112p:plain

ちゃんと .NET Framework 4.7.1 がインストールされています。App Service で動かしているアプリが 2016 で動くか心配な場合は、West Central US で試して見ると良いでしょう。

さて、アナウンスでは HTTP/2 対応は後回しと書いてありましたが、West Central US にデプロイしたアプリを確認すると、既に HTTP/2 が有効になっていました。

f:id:shiba-yan:20171212230500p:plain

気になったので確認すると、West Central US だけ先行して有効にしたらしいです。なので、今後グローバルでロールアウトされる場合には HTTP/2 は無効な状態となるはずです。

他に変更された部分がないか気になったので、Qualys の SSL Server Test を実行しました。このリージョンは HTTP/2 が有効なので ALPN が対応になってます。

f:id:shiba-yan:20171212230043p:plain

そして HTTP/2 で必要な暗号スイートである TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256 が追加されています。この辺りは HTTP/2 が無効になっていても影響を受けない気がしますね。

f:id:shiba-yan:20171212225933p:plain

後は ECC 向けに secp384r1 曲線が追加されてました。Windows Server 2016 で追加された感あります。

f:id:shiba-yan:20171212230137p:plain

TCP Fast Open が有効になっているかとか気になりますが、確認がめんどくさかったのでやりません。数年振りとなるプラットフォーム側のアップデートなので、今後の展開にも期待しています。

Azure App Service が Windows Server 2016 に段階的にアップグレードされます

12/4 から App Service のホスト OS が Windows Server 2012 R2 から Windows Server 2016 へアップグレードされているらしいです。とはいえ非常にゆっくりロールアウトするらしいので、実際に 2016 なスケールユニットが使えるようになっているかはわかりません。

詳細はさとうなおきさんがブログで書いてるので、そっちを読むと良いです。日本語です。

Azure App Service、Azure FunctionsのWindows Server 2016へのアップグレード | S/N Ratio (by SATO Naoki (Neo))

ちなみに自分はまだ 2016 になったスケールユニットを引き当てていません。いろんなリージョンに App Service を作って試しましたが、リージョンが公開されていないと辛いですね。

f:id:shiba-yan:20171209234103p:plain

某社の T 田さんからメッセージで「互換性とか大丈夫なんすか?」みたいなことを聞かれたので、今のところ分かっている情報をベースに軽くまとめておくことにします。

IIS が 8.5 から 10.0 に

Windows Server 2016 へのアップグレードと同時に IIS もこれまでの 8.5 から 10.0 にアップデートされます。公式サイトで新機能が紹介されてますが、基本的には HTTP/2 だけです。

スケールユニットが 2016 にアップデートされても、そのタイミングでは HTTP/2 は解放されないようです。

フロントにいる ARR もアップデートされるので、グローバルで有効化するタイミングを合わせたいという理由なのかも知れません。

URL Rewrite も新しいバージョンがリリースされているので、そういった部分も一気に更新されてくる可能性がありそうです。実際に 2016 のスケールユニットを引き当ててから確認予定です。

2016 から TCP Fast Open など、ネットワークスタックにアップデートが行われていますが、アプリケーション側で対応できるものではないですし、アプリケーションの動作が変わる部分ではないので除外します。

.NET Framework も 4.7.1 に

今回の 2016 へのアップグレードと同時に .NET Framework 4.7.1 もインストールされます。特に書いてなかったのですが、コメントで聞いてみたら 4.7.1 も入ると教えてくれました。

むしろ OS のアップグレードよりも .NET Framework のアップデートの方が注意したい部分ですね。とはいえ 4.7 から 4.7.1 は特に互換性に影響の出る内容はなさそうなので、個人的には特に確認はしないです。

ASP.NET 周りのアップデートも多いので、万全を期すためには Visual Studio 2017 15.5 と .NET Framework 4.7.1 SDK の環境で、予め動作確認をしておけば良いでしょう。

とりあえず、早く 2016 が動いているスケールユニットを引きたいです。

Azure Functions and Web Jobs Tools のアップデートが失敗するのを直した

Visual Studio 2017 の 15.5 が出たので、やっと Azure Functions の新しいツールがインストール出来ると楽しみにしてましたが、無情にも謎のエラーが出てアップデートできませんでした。

インストールの途中ぐらいで以下の画像のようなエラーが出てしまいます。

エラーログには Azure Functions のツールをアンインストールしろと書いてますが、Visual Studio Installer からアンインストールすると Azure 開発周りもごっそり削除する割に、結局直らなかったので最悪です。

どうしようもないので Visual Studio Gallery の Q&A を見たら、同じ状況の人と回答を発見しました。割と前から発生していたようで、GitHub の Issue が割と伸びていました。

正直この Issue も解決したのかしてないのかわからない感じですが、エラーログからアンインストール出来ない拡張のパスを拾ってきて、そのディレクトリを削除するとアップデート出来るようになりました。

以下のようにディレクトリ名はランダムなので、エラーログから間違えないように拾ってきます。

f:id:shiba-yan:20171207004220p:plain

削除後には Visual Studio を起動して、機能拡張のアップデートを確認すると良いです。そこでアップデートか、もしくはインストールを実行すれば最新版が正しく入りました。

少しイレギュラーな対応をしてしまったので、動作に問題がないか少し不安でしたが、ちゃんと .NET Core 向けの Azure Functions が作れるようになっていたので問題なさそうです。

3 回ぐらい Azure 開発周りの再インストールを繰り返してしまったので、忘れないように残します。

Surface Book 2 でもアップデートを試しましたが、こっちはすんなりとアップデートが行えたので、特定のバージョンが入っている環境でのみ発生する問題のようでした。

Premium V2 が選べない App Service Plan が存在する

タイトルの通りですが、大昔に作った Japan East の App Service Plan を何となくスケールさせようかとしたら、Premium V2 がグレーアウトして選べなくなっていました。

f:id:shiba-yan:20171205163953p:plain

Premium V2 について知りたい方は、Public Preview の時に書いたエントリがあるので、こっちも参考にしてください。今は GA してますが、基本的に変わっていないはずです。

価格は GA してもこれまでの Premium と同じなのに、パフォーマンスは格段に向上しているので移行しない理由は全くありません。Premium を使っている場合は今すぐ移行しましょう。

話を戻します。グレーアウト部分に分かりにくいですが、理由が書いてあります。

Premium V2 is not supported for this scale unit. Please consider redeploying or cloning the App

要するに今の App Service Plan が載っているスケールユニットには、Premium V2 用のインスタンスが入っていないようです。なので Premium V2 を使うためには App Service の再デプロイやクローンを行って、スケールユニットを変える必要があります。

スケールユニットを変更するというのは地味に大変な作業です。サポートに変更リクエストを依頼できる噂もありますが、実行されるスケールユニットが変わると IP アドレスが変わります。A レコードを使っている場合、Outbound IP アドレスを使って制限をかけている場合などは手間がかかります。注意しましょう。

今ある App Service Plan に Premium V2 がデプロイされることを期待しますが、これから新しく作る App Service で Premium V2 を使う予定がある場合には、作成時に Premium V2 を選ぶようにしましょう。

f:id:shiba-yan:20171205165809p:plain

新規作成時に Premium V2 を選んでおけば、当然ながらデプロイされているスケールユニットが優先的に割り当てられるので、変更することがあっても安心して使えます。

今すぐに必要ない場合は、作成後にスケールを下げておけば良いです。後から変更するのは大変なので、予め考えておくか無条件で Premium V2 を選んで作成するのが良いかもしれません。

Application Insights に Cosmos DB で消費された RUs を送信すると非常に捗った話

仕事で Cosmos DB を使ってアプリケーションを書きましたが、最近はあらかじめ割り当てておいた RU を突き抜けることがあって原因の調査を行っていました。

その時に Cosmos DB のメトリックだけではコレクション別でしか RU を確認出来ず、Application Insights では処理時間しか取得されておらず不便だったので、自前で消費した RU を送信するようにしました。

RU を送信する処理は Repository のベースクラスに仕込んだので、少しの修正だけで済みました。

上で挙げたサンプルクラスに以下のような処理を追加して、適当なタイミングで呼び出しているだけです。RU 以外にも送っても良い気がしますが、今回は RU だけで十分でした。

TelemetryClient はサンプルなので DI を使って直接渡しましたが、適当にインターフェースを用意した方が Application Insights への依存関係を含めずに済むのでスマートかもしれません。

protected async Task<IList<T>> ExecuteQueryAsync<T>(IDocumentQuery<T> documentQuery, [CallerMemberName] string methodName = null)
{
    var requestCharge = 0.0;
    var list = new List<T>();

    while (documentQuery.HasMoreResults)
    {
        var response = await documentQuery.ExecuteNextAsync<T>();

        requestCharge += response.RequestCharge;

        list.AddRange(response);
    }

    TrackRequestCharge(requestCharge, methodName);

    return list;
}

private void TrackRequestCharge(double requestCharge, [CallerMemberName] string methodName = null)
{
    Telemetry.TrackEvent($"Executed operation {CollectionId}.{methodName} in {requestCharge} RUs", new Dictionary<string, string>
        {
            { "Collection", CollectionId }
        },
        new Dictionary<string, double>
        {
            { "Request units", requestCharge }
        });
}

ExecuteQueryAsync に関しては前回用意してなかったですが、モリス先輩がタイミングよく書いていたので参考にして組み込みました。

複数回 ExecuteNextAsync を呼び出す可能性があるので RU は集計するようにしてます。

そんなこんなでアプリケーションを実行してみると、カスタムイベントとして Application Insights に Cosmos DB で消費された RUs と実行したメソッド情報が表示されます。

サンプルなのでデータの偏りがなく、RU が一定になっているのでありがたみは感じないかもしれません。

f:id:shiba-yan:20171204230014p:plain

しかし実際のアプリケーションでの調査では、このカスタムイベントと Application Insights の Session Timeline が非常に強力でした。処理の流れが時系列で簡単に表示できる、最高に素晴らしい機能です。

組み合わせることで、どのページからの呼び出しで RU を過剰に消費しているか一目で確認出来ました。

f:id:shiba-yan:20171204230728p:plain

ちなみに、カスタムプロパティとしてコレクション名を送信しているので、Metrics Explorer から簡単にコレクション単位での RU 消費をグラフにすることが出来ます。

f:id:shiba-yan:20171204224345p:plain

グルーピングを設定しないと、関係なく集計してしまってあまり意味がありません。

実際に設定すると、以下のような表示になります。一目で状況を把握することが出来ますね。

f:id:shiba-yan:20171204225749p:plain

Cosmos DB は RU の消費状態を把握し、最適化を行うかが重要だと再認識しました。そのためには組み込みのメトリックだけでは不十分で、APM と上手く組み合わせると幸せになれるという話です。

実際に仕事で作ったアプリケーションで発生していた RU の過剰消費は一瞬で解決しました。それは余計なデータまで読みに行くという、単純なバグだったというオチでした。