TOKYO | OCT. 5, 2016 TensorRTをもっと高性能に使う 森野慎也, シニアCUDAエンジニア, ディープラーニング部, エヌビディアジャパン TensorRT ディープラーニングにおける最高の推論パフォーマンス 高性能なフレームワークで、 GPU上の推論エンジンを、容易に開発する。 ディープラーニングによる推論を用いた、 製品展開のためのソリューション トレーニング済みネットワーク、ターゲットGPUに対して、 推論エンジンの性能を最適化 32-bit、16-bit 演算を用いた推論エンジン Hyperscale, ADAS, Embedded 向け https://developer.nvidia.com/tensorrt HTTP (~10ms) データセンターにおける GPU Inference Engine 画像分類 オブジェクト 検知 音声認識 --- TensorRT ニューラルネットワークの最適化 • ネットワークレイヤの融合 • Concatenationレイヤの除去 • カーネル特殊化 • ターゲットプラットフォームに対する オートチューニング トレーニング済みの ニューラルネットワーク https://developer.nvidia.com/tensorrt • 最適なテンソルレイアウトの選択 • バッチサイズのチューニング 最適化された 推論 エンジン TensorRT ワークフロー DIGITS NEURAL NETWORK developer.nvidia.com/gpu-inference-engine OPTIMIZATION ENGINE PLAN EXECUTION ENGINE TensorRT @ Parallel ForAll TensorRTそのものについては、 こちらをご参照ください。 簡潔ですが、情報量も多いです。 https://devblogs.nvidia.com/parallelforall/production-deep-learning-nvidia-gpu-inference-engine/ GPU REST ENGINE https://github.com/NVIDIA/gpu-rest-engine CaffeをTensorRTに 入れ替えてみよう! 推論サーバの実装。 Go言語を使用した、HTTPサーバ Caffeを用いた推論 NVIDIA Dockerを使用したコンテナ化 TensorRTとCaffeの推論性能比較 CaffeとTensorRTの比較 実行例 : 画像から対象を認識 [{"confidence":0.9255,"label":"n02328150 Angora, Angora rabbit"}, {"confidence":0.0466,"label":"n02326432 hare"}, {"confidence":0.0272,"label":"n02325366 wood rabbit, cottontail, cottontail rabbit"}, {"confidence":0.0001,"label":"n02097298 Scotch terrier, Scottish terrier, Scottie"}, {"confidence":0.0001,"label":"n02364673 guinea pig, Cavia cobaya"}] CaffeとTensorRTの比較 評価条件 使用したモデル、ファイル - Caffeに含まれる、GoogleNetモデル。 https://github.com/BVLC/caffe/tree/master/models/bvlc_googlenet - ILSVRC12の学習に用いられた、平均値イメージ。 https://github.com/BVLC/caffe/tree/master/data/ilsvrc12 フレームワーク・ライブラリ - Caffe : NVIDIA github上のフォークを使用 (v0.15.9) - TensorRT RC1 (CUDA 8.0) 基本となる実装 https://github.com/NVIDIA/caffe/tree/caffe-0.15/examples/cpp_classification 推論(INFERENCE)の処理 処理内容の説明 Caffe版 TensorRT版 画像のデコード cv::decode cv::decode 前処理: Float化・リサイズ・平均値を引く メモリレイアウト変換 cv::cuda モジュール CUDA カスタム実装 推論 Caffe TensorRT 推論結果から 画像のラベルを取得 CPU処理 CPU処理 少しだけ、実装を、見てみる 本日使用したGPU Quadro M5000 Compute Capability : 5.2 (GM204) CUDA Cores : 2048 Memory : 8 GB GDDR5 (256 bit) TensorRTのご利用時には、 Teslaでの運用をお願いいたします。 評価結果 Caffe版 TensorRT版 速度向上率 前処理 3.0 ms 0.8 ms x 3.7 推論 7.4 ms 2.4 ms x 3.1 全体 10.4 ms 3.2 ms x 3.2 前処理も、最低限の処理に整理し、CUDA化することで、3.7倍 高速化。 TensorRTの使用により、推論速度は、3.1倍、向上 TensorRTから、もっと性能を引き出す! 高効率化の指針 コンカレントな実行 - 複数の推論処理を、並行に実行することで、GPUの使用率をあげる。 バッチサイズの効果 バッチサイズを大きくとる - 一般に、バッチサイズが大きい方が、演算効率が高い。 コンカレントに実行 cudaStreamを利用する Thread 1 Thread 2 Thread 3 CUDA Stream 1 CUDA Stream 2 output1 decode1 decode4 output2 decode2 decode5 output3 decode3 infer1 infer3 infer2 スレッドの数と、CUDA Streamの数が、一致しなくとも構わない。 dec… Infer… Infer.. ストリームの設定 nvinfer1::IExecutionContext *ctx = …; cudaStream_t stream; cudaStreamCreate(&stream); /* 略 */ ctx->enqueue (batchSize, d_inputs, stream, NULL); cudaStreamSynchronize(stream); コンカレントに実行 性能計測結果 5.00 700 同じスレッド数、ストリーム数で実行。 600 8スレッド:8ストリームで飽和。 推論時間 [ms] 500 3.00 400 300 2.00 200 1.00 100 0.00 0 1:1 2:2 4:4 8:8 16:16 スレッド数 : ストリーム数 32:32 スループット [1/s] 4.00 約2倍の性能改善 プロファイラ シリアル実行時 コンカレント実行時には、複数のカーネルが、 オーバーラップして動作している。 コンカレント実行時 拡大図 カーネルが、オーバーラップして いる。 推論用のカーネルの並列度は、 低いものがある。 カーネルのオーバーラップ実行が 可能。 複数の推論をコンカレントに実 行することで、効率向上。 WEBサーバと結合して評価 シーケンシャル・コンカレントな推論 スループット比較 推論サーバの 「推論処理スループット」 「処理レイテンシ」 を計測。 推論サーバ GOの net/http パッケージを使用して実装 推論Server http: … 「同時リクエスト数」を変えて、計測。 GOのboomを使用 Localhost経由での計測 (イーサネット通信の影響なし) Client : boom 同時リクエスト数 1 ~ 32 推論のリクエストに対して、並行実行 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 実行待ち 実行待ち GPU 推論実行 Stream1 推論実行 Stream2 推論実行 Stream3 推論サーバの性能評価 スループット・レイテンシ シリアルな推論に比べ… スループット [リクエスト数 / s] 700 シリアル コンカレント 600 コンカレントに推論を実施することで 約 “650 リクエスト / 秒” を実現。 約 2倍のスループットを達成 500 400 同時リクエスト数 8 で、性能は飽和。 300 レイテンシ(同時リクエスト数8) 200 シリアル コンカレント 100 0 1 2 4 8 同時(並行)リクエスト数 16 32 22.1 ms 14.2 ms バッチサイズの効果 一般に、バッチサイズを大きくすることで、 処理性能は向上。 バッチ数が小さい : メモリアクセス量に対して、 演算量が少ない。効率低い。 TensorRT (バッチサイズ=1) TensorRT (バッチサイズ=4) バッチ数を増やす : メモリアクセス量に比して 多くの演算を効率的に実行 rabbit Rabbit Dog Cat Mouse 高効率 バッチ数の増加による性能改善 Chart Title 3.50 1000 3.00 TensorRTの 推論処理時間のみを計測。 800 2.00 600 1.50 400 1.00 200 0.50 0.00 0 1 2 4 8 16 バッチサイズ 32 64 128 スループット / s 実行時間 [ms] 2.50 バッチサイズごとに、 ネットワークの最適化行う。 バッチサイズの増加により スループットは、「2.5倍」改善 推論のリクエストに対して、並行実行 複数バッチ数で実行 推論リクエスト 推論リクエスト 実行待ち 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 推論実行 Stream2 推論リクエスト 推論リクエスト 推論リクエスト 推論リクエスト 推論実行 Stream1 推論リクエスト 推論実行 Stream3 推論(バッチ数4)を適用する 推論サーバのスループット 900 シリアル 800 コンカレント 700 バッチ 同時リクエスト数 32にて、 バッチ数4の推論サーバが 高速になる。 スループット [1/s] 600 一方、レイテンシは同程度。 500 400 コンカレント バッチ(N=4) 300 53.5 ms 49 ms 200 100 0 1 2 4 8 同時リクエスト数 16 32 64 シリアル実行に比して、 2.4倍の性能向上 TensorRTから、もっと性能を引き出す! まとめ 前処理も最適化する コンカレントな実行 - バッチサイズの効果 複数の推論処理を、並行に実行することで、GPUの使用率をあげる。 バッチサイズを大きくとる - 一般に、GPUでは、バッチサイズが大きい方が、演算効率が高い。 TOKYO | OCT. 5, 2016 THANK YOU SO MUCH !! JOIN THE CONVERSATION #GTCJapan
© Copyright 2025 Paperzz