トップページ ≫ GPUハードウェア Red and Black / ZEBRA

平成22年 5月24日
株式会社爆発研究所
インフィニバンドGPUクラスター
Red and BlackおよびZEBRA、発売開始
株式会社爆発研究所は、複数GPUで実行する際のスケーラビリティの高い GPU並列計算システム 「Red and Black」 (レッド・アンド・ブラック)と、「ZEBRA」 (ゼブラ)の販売を開始致します。

GPU (Graphics Processing Units) を汎用計算に利用することでCPUに比べて非常に高い性能が得られることは良く知られています。しかし、1つのGPUでは計算できないような問題に対しては、PCI Express Busやノード間ネットワークの通信リ帯域がボトルネックになり、使ったGPUの台数分の性能が出ないことが殆どです。 爆発研究所は、東京工業大学青木尊之教授の提案によるマルチGPU計算に最適化したGPUクラスターコンセプト; 「1ノード当たり1GPU、ネットワークはInfiniband」を、アクリルラックの質感で包んだ、見た目も鮮やかなGPU並列計算システム 「Red and Black」 (レッド・アンド・ブラック)と、「ZEBRA」 として製品化しました。 現在のインテルの普及価格帯のチップセットはPCI Express Bus に対して×36までしか使うことができません。ノード間(PC間)の通信にInfiniband QDR (40Gbps)を使う場合、×8で接続しなければならないため、×16のGPUは1個しか接続できないことになります。贅沢ですが、GPUの性能をマルチで最大限引き出すには、この構成が最適です。

Red and Black ZEBRA

「Red and Black」と「ZEBRA」、どちらも不必要な拡張スロットを排除したマイクロATXマザーボードをキューブケースに収め、ネットワークは Infiniband、コストパフォーマンスを追及しながらも性能面では手を抜かない、究極のハードウェア構成です。斬新な透明アクリルラックの質感が、交互に並んだ赤と黒、白と黒のキューブケースを包みます。並列計算のアルゴリズムとして有名な「Red and Black法」にちなんで、これからの数値計算を牽引していく GPU並列計算システムとして名付けました。透明ラックに包まれた鮮やかなデザインのキューブケースクラスターが研究室や開発の現場に置かれれば、シンボリックな存在として、訪れる人たちの目を惹きつけるでしょう。
代表的な機器構成の一例を以下に示します。


  Red and Black; 以下のPC × 8台構成。ネットワークは Infiniband QDR。
     CPU: Intel Core i7 975 Extreme Edition 
     GPU: nVidia GeForce GTX480
     メインMemory: 48GB

  ZEBRA;以下のPC × 4台構成。ネットワークは Infiniband SDR。
     CPU: Intel Core i5 750s
     GPU: nVidia GeForce GTX470
     メイン Memory: 6GB

爆発研究所は東京工業大学 青木教授の協力を受け、メモリ参照や通信速度が支配的で、GPUの個数に比例した速度が出難い「格子ボルツマン法による流体解析問題」のベンチマークテストを「Red and Black」 で実施しました。 1ノードに8GPUを搭載するなどの対立軸上のシステム構成(CPU:INTEL corei7 920 x1,Memory: DDR3-1333 2GB×6,GPU : NVIDIA GeForce GTX295 × 4(8GPU),MB: ASROCK SuperComputer)でベンチマークテストを行い、「Red and Black」が素晴らしいストロング・スケーリングを確認することができました。

以下に、格子ボルツマン法によるベンチマークの結果をご紹介します。

格子ボルツマン法(LBM)は、ナビエストークス方程式などの流体方程式を解くのではなく、位相空間(実空間と速度空間)の速度分布関数を BGK タイプの簡易衝突項が付いたボルツマン方程式を時間積分することにより流体計算を行います。位相空間で解くために従属変数が多く、計算の殆どがメモリアクセスに費やされています。

本ベンチマークでは、並列化されたLBMプログラムを用いて、系の「サイズ」(縦×横×高さ方向の粒子数の積)を変えずに、同じ時間ステップ数に到達するのに必要な計算時間をGPU数(並列数)を変化させながら評価します。




【図1】格子ボルツマン法(D3Q19)の流体計算に対するストロング・スケーラビリティ

図1は、Red and Blackにおける計算速度のノード数(GPU数)に応じたスケーラビリティーの結果を示しています。
図1において、それぞれ

・Red and Blackクラスター(8ノード、Infiniband QDRネットワーク、サイズ:192×192×192)
・Red and Blackクラスター(4ノード、Infiniband SDRネットワーク、サイズ:96×96×96)
・TSUBAME 1.2(東京工業大学のクラスタ型スーパーコンピュータ、サイズ:192×192×192)
・Red and Black単ノードマシン(サイズ:96×96×96)

における計算時間を、1ノードにおける値を1としてノード数に対する依存性をプロットしています。
GPUクラスターシステムでは、非常に良いスケーラビリティーが実現していることが分かります。
また、本プログラムでは、計算を高速化して理想的なスケーラビリティーを実現するために、GPUにおける計算とノード間の通信を同時に処理する技法を採用しています(計算と通信のオーバーラップ)。

TSUBAME 1.2 では、Infiniband の速度が遅いため、GPUを2個以上増やすと計算時間より通信時間の方が長くなってしまい、実行性能が伸びなくなってしまいます。GTX295 の8GPUマシンでは、図2のようにGPUからCPUへのデータ転送が非常に遅くなるため、2GPUの時点で既に通信時間の方が計算時間よりずっと長くなっています。



【図2】Host-Device間の通信性能

(Syncは同期通信、Asyncは非同期通信を示します)

GPUとCPU(Host-Device)の間の非同期データ通信(Async)が計算と通信のオーバーラップをさせるため使われ、図2からRed and Black の性能の良さが分かります。すなわち、GPUとCPU間のデータ転送速度とノード間通信速度の両方が高い性能を持たないとマルチGPUの高いスケーラビリティは得られません。 そして、これこそが本システムにおいて「1ノード1GPU」という構成を採用した背景であり、このことによってRed and Blackクラスターシステムにおける強スケーリング性が他のシステムと比べて全く違う結果をもたらすのです。



「東京工業大学 青木教授からの御推薦文」







     広報および製品問合せ先
     株式会社爆発研究所 http://www.bakuhatsu.jp
     秋葉原支社
     マーケティング部 広報担当  高野 
Tel . 03-6803-2263 Fax . 03-6803-2264 E-mail .メールアドレス