re:Invent 2019初日に発表されたAWSの新たな取り組み

すべてのITが「マネージド」に!

アマゾンが提供するAmazon Web Services(以下AWS)は、多くのITインフラの機能をサービスとして提供しており、その範囲は「ウェブサービス」という名前の枠を超えて広がっている。AWSは現在最もシェアの高いクラウドプロバイダーであり、その進化の方向性はクラウドのマーケット全体に影響を及ぼすといえるだろう。そのAWSの今後の方向性を示すものが、年次カンファレンス「AWS re:Invent」だ。2019年のre:Inventは、12月2日からアメリカのラスベガスで開催された。初日である2日の夜19:30(現地時間)から始まったMonday Night Liveで語られた内容を紹介しよう。

HPCを「アズアサービス化」する

登壇したのは、AWSでグローバルインフラストラクチャーおよびカスタマーサポート担当VPの肩書を持つピーター・デサントス(Peter DeSantis)氏だ。デサントス氏が最初に取り上げたのはHigh Performance Computing(HPC)、いわゆる「スパコン」である。昨今のHPCは、特別に設計されたコンピューター(ノード)を専用のネットワークを用いて接続したクラスタであり、大型なものでは数千台規模になる。ネットワークは、HPCのアプリケーションが効率的に稼働できるような仕組みを備えている。当然設計から完成までには年単位の時間がかかり、数十万~数百万ドルオーダーの費用もかかる。そのため、特に高性能なHPCを使用できるのは、国家レベルの組織や大企業に限られているのが現状だ。

 AWSはこの現状を改めるべく、RE:INVENT SUPERCOMPUTERと銘打った以下の施策を展開している。

  • ハードウェアによる仮想化(Nitro Controller)
  • 高速、低遅延、大容量のネットワーク
  • TCPに代わるネットワークスタックEFA
  • 一般的なHPC用ライブラリやアプリケーションの提供

ネットワーク性能を強化

HPCのワークロードで特に重要となるのは、ハードウェア/ソフトウェアの両面に渡るネットワークである。このうちのハードウェアに相当するのが、上述の高速、低遅延、大容量のネットワークだ。それを裏付けるデータとして、2013年版と2019年版のHPC向けインスタンスを比較したデータが示された。これによると、ネットワークの帯域が10GBpsから100GBpsへと高速化されたことにより、ベンチマークのスコアがvCPUの個数比以上に向上していることが分かる。またネットワークの容量そのものについても、2013年の時点では460TBpsであったが、2019年には10,600TBpsと20倍以上に強化されているという。同時に、遅延についても12マイクロ秒から7マイクロ秒まで短縮されている。

ネットワークの高速化により、vCPUの個数以上の性能向上を実現

一方ネットワークに関するソフトウェアの改良点として挙げられたのが、TCPを置き換えるEFA、Elastic Fabric Adapterだ。インターネットで使われているTCPは、HPC用途にはオーバーヘッドが大きく不向きである。これに対してEFAは、カーネルでのネットワーク処理をスキップし、アプリケーションがダイレクトにネットワークアクセスできるようになっている。

一般的にHPCワークロードは、各ノードにデータを送って計算を実行し、その結果を集めたのち再び各ノードに送る……というサイクルのものが多い。すべての結果が揃って初めて次のサイクルに進めるため、ノード間の転送速度は速いことに加えてばらつきが少ないことが要求される。10GBpsのネットワークを介して、10個のインスタンスから1つのインスタンスにそれぞれ8GBのデータを送る場合、TCPでは6.84秒から8.32秒まで転送速度にばらつきが生じたが、EFAでは6.36秒から6.83秒とばらつきが少ないことが示された。

EFAの採用により、転送速度が向上するとともにばらつきも減少

AWSが提供する「HPC」の事例を語るゲストとして、フォーミュラ1のロブ・スメッドリー(Rob Smedley)氏が招かれた。超高速のF1カーは、ウイングなどの空力付加物で地面に押さえつけられながら走っていることはよく知られている。この押さえつける力、ダウンフォースは他車の後ろを走っている際には大きく低下し、0.5秒差では実に40%も減少するそうだ。これに対して、AWSのHPC向けインスタンスを用いて流体力学シミュレーションを行った2021年モデルでは、7%の減少に抑えられたという。F1レースが、より安全により迫力のあるものになるのもAWSのおかげというわけだ。

機械学習へのAWSのアプローチ

続いてデサントス氏が紹介したのは、機械学習に関するAWSの取り組みだ。機械学習は元となるデータ群から特徴を抽出する「トレーニング」によりモデルを作成し、それを用いて「インファレンス(推論)」を行うものだ。ワークロードとして見ると、トレーニングとインファレンスはまったく異なっており、AWSではそれぞれに異なったアプローチをしているのが興味深い。

まずトレーニングに対しては、学習用のデータのサイズがどんどん大きくなり計算量も増加していくため、インスタンスの性能を強化するとともにネットワーク帯域も拡大したトレーニグ用のインスタンス「p3dn」を用意した。これにより、GPUの台数が同じ場合でも性能が向上し、さらに200台近くまでリニアに性能がスケールするようになった。

トレーニング用インスタンスはGPU 200台近くまでスケールする

このインスタンスは、用途によってはGPUが2000台になってもリニアに性能が向上する。8GPUで222時間かかっていたワークロードが、2048GPUではわずか1時間で処理できるという。

台数を増やすことでリニアに性能が向上する

インファレンスはレイテンシーが重要に

一方インファレンスについては、計算量はトレーニングほど多くない一方で、多くのユーザーが繰り返し実行するという特徴がある。そのため、より重要になるのはユーザーのアクションに対していかに素早く応答するかである。そこでインファレンス用のアクセラレータNVIDIA Tesla T4を搭載したインスタンスG4dnが用意された。G4dnは汎用的な高性能インスタンス(C5)と比較して、インファレンス性能を大きく向上させており、用途によっては20倍以上の高速化、90倍のスループットを実現している。

専用インスタンスでインファレンス性能を大幅に向上

さらにインファレンスに関しては、自社製の専用チップ、AWS Inferentiaも紹介された。こちらは2018年のre:Inventで初めて名前が挙げられたもので、まもなくリリースされると思われる。専用チップを自社開発するということは、コスパの点でTesla T4を上回る自信があるのだろう。

エコな企業であることもアピール

最後にデサントス氏は、AWSのさまざまな数字を紹介し始めた。現状では世界中に22のリージョンがあり、4つが建設中、アベイラビリティーゾーンは69あり、新たに13個が予定されている。このように、世界的規模でビジネスを展開するAWSは、当然トータルの電力消費量も莫大なものとなる。しかし昨今の環境問題を考えれば、好き勝手に電力を消費してビジネスを展開していれば批判の的にもなりかねない。

そこでAWSは、今から5年後の2024年までに再生可能エネルギーの使用率を80%に、2030年にまでには100%に、そして2040年までに実質的な炭酸ガス排出量ゼロを目標としているそうだ。この目標は、パリ協定で定められた年限である2050年を10年前倒しするという野心的なものだ。その目標に向けて、風力、潮力、太陽光といった再生可能エネルギーの装置建設を世界中で進めていることを紹介して、デサントス氏は1時間半のライブを締めくくった。

2040年に炭酸ガス排出ゼロを目標に

HPCや機械学習もクラウドに飲み込み、ITのすべてを「アズアサービス」化していく貪欲さの一方で、環境への配慮をアピールすることも忘れていないAmazon。GAFAと呼ばれる覇権企業のしたたかさを垣間見せられたライブであった。