東北大学サイバーサイエンスセンターの 新スーパー

東北大学サイバーサイエンスセンターの
新スーパーコンピュータシステムの概要と
高性能計算に関する研究開発活動
小林広明
センター長・教授
東北大学サイバーサイエンスセンター
koba@cc.tohoku.ac.jp
2014年11月11日
1
Hiroaki Kobayashi, Tohoku University
東北大学サイバーサイエンスセンターの歴史
1969年に日本で2番目の全国共同利用型大型計算機センターとして設立
•
汎用大型計算機の運用
1985年よりスーパーコンピュータセンターとして活動
•
大規模科学計算システムとしてベクトル型のスーパーコンピュータ
を運用
2008年に情報シナジーセンターからサイバーサイエンスセンターへ改組
•
/
/
2010年より「学際大規模情報基盤共同利用・共同研究拠点」として
文科省より認定を受け,2012年よりHPCIに資源提供を開始し,HPC
に関する共同利用・共同研究拠点活動を強化
First Computer in 1969
SX-1 in 1985
SX-2 in 1989
SX-3 in 1994
SX-4 in 1998
SX-7 in 2003
SX-9 in 2008
SENAC-1 in 1958
ACOS 1000 in 1982
NEC SP研究会
2
平成26年11月11日
サイバーサイエンスセンターのHPCに関する取り組み
~Ž€:RsH
_\-sps3AH
e$PWGrbmu
>
CE*98f
?2ey‹}sU5DWG|}‰s0^>f
‡y‚Œ}„{Ž…Š€f
3
!
7
*2+45"$%.,14'!
}x‹}„{Ž…Š€f
>M.,S(CEMO&f
#3!
†z‹‰`@.,f
(2/)&0(6)
ZLs1f
=4>.,f
7e$PWGBsCE`@f
~Ž€/Nq>Mrtu
CEs1f
F%Bqns>)TrbmuCEs+]f
HPCI{Ž|v‰8f
>MV9p'kshig;s0j
>M{ˆŠƒws#&f
HPCI|}‰XW^>f
e$PWGBsCE`@rbmuHKa
sJIf
HPCIYdCEM.,
s6bqs
CEs1f
_<c/Of
_‘c%DCED CED
CEDsZ"qlo[AQ!A/OCE
s+]
NEC SP研究会
3
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
東北大学大規模科学計算システム (H26.4.1~)
最先端のスーパーコンピュータ設備の整備・運用
スカラ並列型
ベクトル並列型
クラスタシステム
スーパーコンピュータ
NEC SP研究会
4
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
なぜ我々は「ベクトル型」スーパーコンピュータにこだわるのか!
~東北大SX-9システムの特徴~
System
29.4TF
18TB
Node
1.6TF
1TB
CPU
102.4GF
NEC SP研究会
高バンド幅専用ネットワーク (128GB/s per direction)
大規模・高性能SMP ノード
世界最高のシングルコア性能+高いメモリバンド幅(2.5BF)
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
スパコンに関する誤信と落とし穴:その1
単にピーク性能が高ければ良いってもんじゃない
SX-ACE 1B/F (256Gflop/s)
256.0
128.0
6
m
ea
Str
64.0
性能上限(Gflops/s)
/s
GB
BW
25
B/s
m
rea
St
32.0
B/s
G
.95
72
Sandy Bridge 0.27B/F (187.5Gflop/s)
K computer 0.5B/F(128Gflop/s)
SX-9 2.5B/F
(102.4Gflop/s)
B/s
e
Str
Tesla C1060 1.3B/F (78Gflop/s)
G
4.7
6
BW
am
BW
am
e
Str
B/s
G
3.3
4
BW
Nehalem EX 0.47B/F (72.48Gflop/s)
B/s
Nehalem EP 0.55B/F (46.93Gflop/s)
.8G
34
FX-1 1.0B/F (40.32Gflop/s)
SX-8 4B/F (35.2Gflop/s)
G
.61
8
m
5
ea
B/s
Str
BW
G
/s
m
6
.
ea
17 .0GB
Str
BW 17
B/s
G
m BW
a
.0
e
10
Str eam
BW
Str
m
a
e
Str
BW
16.0
8.0
4.0
Power7 0.52B/F(245.1Gflop/s)
FX-10 0.36B/F (236.5Gflop/s)
2.0
高メモリバンド幅
アプリ
1.0
演算指向アプリ
Source: 2012 report
of computational
science roadmap
0.5
8
NEC SP研究会
4
2
1
0.5
6
0.25 0.125 0.063 0.03 0.01
アプリ B/F (アプリメモリ要求度)
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
スパコンに関する過信と落とし穴:その2
単に数を増やせば良いってもんじゃない
超大規模数値計算に基づく核融合炉先進ブランケットデザイン条件における高精度
Parallel Effi
c
Sustaine
d Gflop/
s
MHD 熱伝達データベースの構築(山梨大学 山本教授とのJHPCN共同研究)
iency(%)
Efficiency
20%
Efficiency
10%
タ
ピュー
Kコン
Efficiency
2.5%
NEC SP研究会
7
9
SX-
ュータ
Kコンピ
,%)' *' '!'#,
,*+"& $'(*
SX-
9
Efficiency
5%
,%)' '*' '%(,+)
Y. Yamamoto, Progress Report of JHPCN12 - NA14
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
東北大学におけるスパコンサービス状況と
主な利活用分野
Upper Limit of 24/7
service
産業利用
アンテナ・電磁解析
浮動小数点演算量(×1015)
シミュレーションに活用された
航空機設計
学術利用(学内)
学術利用(学外)
材料・物性
気象・気候
地震
ターボ機械
磁気デバイス
燃焼
NEC SP研究会
年度
8
8
平成26年11月11日
大学の知・設備の民間活用支援事例
MRJ
MHI
Eco-wave
TDK
国際競争力のある製品開発へ貢献
毎年10%程度を
民間利用支援へ
NEC SP研究会
9
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
東北大学サイバーサイエンスセンターの
今後のスーパーコンピュータ整備・運用・研究開発計画
~次の10年間の活動計画~
基本戦略: Supercomputers for the rest of usの研究開発・整備・運用を目指して...
第2階層に位置するNISとして, 特にflop/s指向のフラグシップマシンを補完すべく,flop/sとバランスしたメモリ性能を有するマシンの研究・開発に取
組み,導入時にリーディングマシンの1/10程度のシステムでも高い生産性(Short time to Solution)を提供できるシステムの整備・運用を目指す
システム運用と開発を両輪に,ユーザ支援・共同研究で得た知見を,次のシステムの設計・開発に生かす
教員・技術系職員・ベンダー技術者が一体となった現ユーザ支援体制のさらなる強化
社会貢献として産業利用支援の強化
学部・研究科(リーディング大学院等)と連携したHPC教育プログラムへの参画
全国共同利用型の学内スパコン連携体制の構築, およびHPCI基盤を活用した学外スパコン機関との連携のさらなる推進
sxp|}q~w(1,500m2)5
4}+
4*q~w}yno{q~w}
30.)v~u;k/
H241€
rstz7"
RT@IKM=HBHSN?<
CGBSJ?<GFBSJA_><
OT<FBGQWD=ECSN><
R`\^UXW<Rb_`W[_<
=FPJ><
EL<SYZWV<LY_]ZUb
rstz54}
}68-f
'$ckHPCIrstzk<
el6&(dk
NEC SP研究会
FSkm "gi
R&Dk,-<
&(9:k5.€
10
rstz7"
CJAN
j<
DBak/<
m#h
%2m
r "gi
stz5
4
SX-9(!rstz)7"
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
新スパコン棟の完成予定図
The design of the building is underway, and may be subject to change.
NEC SP研究会
11
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
東北大学新スーパーコンピュータシステムの構成
NEC SP研究会
IXS
IXS
Cluster 0
Cluster 4
13
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
SX-ACEプロセッサの特徴
4つの高性能ベクトルコア&オンチップメモリ機構の強化
272Gflop/s of VPU + 4Gflop/s of SPU per socket
•
4-core configuration, 68Gflop/s + 1Gflop/s per core SX-ACE Processor Architecture
256 GB/s memory bandwidth
•
Core 0
1B/F in 4-core Multiply-Add operations
VPU
SPU
256GB/s
1MB private ADB per core (4MB per socket)
Core
2
Core
3
4GB/s
ADB 1MB
4GB/s
MSHR
4x compared with SX-9
256GB/s
4-way set-associative
Crossbar
MSHR with 512 entries (address+data)
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
MC
4B/F for Multiply-Add operations
MC
•
MC
256GB/s to/from Vec. Reg.
256GB/s
MC
•
•
•
•
Core
1
RCU
~ 4B/F in 1-core Multiply-Add operations
256GB/s
短ベクトル処理および間接メモリ参照処理の強化
Source: NEC
Out of Order execution for vector load/store operations
Advanced data forwarding in vector pipes chaining Shorter memory
HPC Activities of Cyberscience
Center latency
NEC SP研究会
than SX-9
14
March 26, 2014
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
センタ利用者の実コードを用いたSX-ACEの評価
評価のポイント
ソケット性能の向上&マルチベクトルコア化の効果は?
•
Is there any negative effect of the reduction in B/F from 2.5(SX-9) to
1.0(SX-ACE) on the sustained performance?
ADB強化の効果は?
•
•
Exploitation of locality in the inner-most loop
Enlarged Capacity (4x compared with SX-9)
間接参照,短ベクトル処理に対する効果は?
•
•
•
NEC SP研究会
OoO Vector Load/Store Operations
Shorter Memory Latency (1/2 of SX-9)
Direct Data Forwarding in Vector Pipe Chaining
15
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
評価対象システム一覧
NEC SP研究会
Remarks: Listed performances are obtained based on total Multiply-Add performances of individual systems
16
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
評価に用いたアプリケーション一覧
NEC SP研究会
17
†
for single-node evaluation
‡
for multi-node evaluation
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Sustained Single CPU Performance
SX-9
SX-ACE
LX 460
SR16K M1
47%
45.9%
45
41.1%
39.4%
35.6%
32.2%
30.1%
29.4%
30
27.4%
17.5%
17.5%
10.4%
6.7%
9%
3.5%
7.7%
5.5%
7.9%
2.8%
7.0%
3%
12.3%
15
Efficiency [%]
Sustained Performance
[Gflop/s]
60
9.8%
5.9%
3.4%
2.5%
3%
3.5%
0
NEC SP研究会
18
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Stream Memory Bandwidth
•
STREAM (TRIAD)
Stream memory bandwidth (GB/sec.)
300
SX-ACE
LX406
SR16K M1
FX10
225
150
75
0
0
2
4
6
8
10
12
14
16
Number of threads
NEC SP研究会
19
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Sustained Performance of SX-ACE Processor
1core (4B/F)
60
57.4%
49.7%
53.4%
NEC SP研究会
4core (1B/F)
52.3%
47.9% 47.2%
45
41.5%
45.9%
37.9%
41.1%
30.6%
29.5%
32.2%
27.4%
30
22.2%
15.3%
15
17.5%
12.8%
10.4%
Efficiency [%]
Sustained Performance
[Gflop/s]
57.9%
2core (2B/F)
12.3%
0
20
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Effects of ADB on Sustained Performance
2 cores
4 cores
Speedup Ratio
1 Core
NEC SP研究会
21
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
l
Impact of ADB/MSHR on BCM Performance
(Stencil & Indirect Memory Accesses)
(j, k, l+1)
k
(j, k+1, l)
(j-1, k, l)
(j+1, k, l)
j
(j, k, l)
2cores (2B/F)
4cores (1B/F)
Sustained Performance
[Gflop/s]
22.2%
22.5
18.4%
15
12%
10.5%
(j, k, l-1)
30
29.5%
17%
(j, k-1, l)
12.3%
Efficiency [%]
1core (4B/F)
7.5
6.2%
5.2%
0
NEC SP研究会
22
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Sustained Performance
[Gflop/s]
Performance of Indirect Memory Accesses in TURBINE
DO 200 K=1,KF; DO 200 J=1,JF;
DO 200 L=lstart,lend; ADB ON
DO 200 I=IS(L),IT(L) ADB OFF
DQL = RH(AMIN0(I-2,IS(L)),J,K) - RH(AMIN0(I-3,IS(L)),J,K)
DQM = RH(I-1,J,K) - RH(AMIN0(I-2,IS(L)),J,K)
DQN = RH(I,J,K) - RH(I-1,J,K)
DQP = RH(AMIN0(I+1,IT(L)),J,K) - RH(I,J,K)
DQR = RH(AMIN0(I+2,IT(L)),J,K) - RH(AMIN0(I+1,IT(L)),J,K)
・・・・・・・・・・・・・
SX-9
DQLM=SQL*DMAX1(0.0D0,DMIN1(AQL,COEFQ*SQL*DQM,
COEFQ*SQL*DQN))
DQMM=SQM*DMAX1(0.0D0,DMIN1(AQM,COEFQ*SQM*DQL,
COEFQ*SQM*DQN))
DQNM=SQN*DMAX1(0.0D0,DMIN1(AQN,COEFQ*SQN*DQM,
COEFQ*SQN*DQL))
DQNN=SQN*DMAX1(0.0D0,DMIN1(AQN,COEFQ*SQN*DQM,
COEFQ*SQN*DQP))
SX-ACE SX-ACE ・・・・・・・・・・・・・
SX-ACE
1core
2cores
4cores
DDQM=DQNM-2.0D0*DQMM+DQLM
DDQN=DQPN-2.0D0*DQNN+DQMN
・・・・・・・・・・・・・
QLL(I,J,K,M)=DQL0+COEFB*DPQM0+COEFC*DMQN0
QRR(I,J,K,M)=DQR0-COEFB*DMQP0-COEFC*DPQN0
200 CONTINUE
NEC SP研究会
23
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Performance of Indirect Memory Accesses in TURBINE
on Modern HPC Processors
20
15
11.1%
10.6%
9.6%
10
5
Efficiency [%]
Sustained Performance
[Gflop/s]
18%
0
NEC SP研究会
24
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Sustained Performance
[Gflop/s]
Performance of Short-Vector Processing in TURBINE
ADB OFF
DO 10 M=MMIN,MMAX;
ADB ON
DO 10 K=KSTA,KEND; DO 10 I=ISTA,IEND
UC11=U(I-1,J,K,1)*XIX(I-1,J,K,1)
&
+U(I-1,J,K,2)*XIX(I-1,J,K,4)
&
+U(I-1,J,K,3)*XIX(I-1,J,K,7)
UC22=U(I,J,K,1)*XIX(I,J,K,1)
&
+U(I,J,K,2)*XIX(I,J,K,4)
&
+U(I,J,K,3)*XIX(I,J,K,7)
・・・・・・・・・・・・
SX-9
SX-ACE SX-ACE SX-ACE
1core
2cores 4cores
AJXIX1=(AJR(I-1,J,k)*XIX(I-1,J,k,1)
&
+AJR(I,J,k)*XIX(I,J,k,KL))*0.5D0
AJXIX2=(AJR(II,JJ,kk)*XIX(II,JJ,kk,KL+3)
&
+AJR(I,J,k)*XIX(I,J,k,KL+3))*0.5D0
・・・・・・・・・・・・
10 continue
NEC SP研究会
25
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Performance of Short-Vector Processing in TURBINE
on Modern HPC Processors
NEC SP研究会
8.3%
7.5
5.6%
5
2.7%
1.8%2.5
Efficiency [%]
Sustained Performance
[Gflop/s]
10
0
26
平成26年11月11日
スパコンを活用した学際的R&Dの取り組み:
リアルタイム津波浸水・被害予測・災害情報
配信による自治体の減災力強化の実証事業
27
Hiroaki Kobayashi, Tohoku University
•
本事業の目的
東日本大震災における津波被害の教訓を踏まえ,世界最先端のシ
ミュレーション・センシング・ICTを融合し,迅速かつきめ細やか
な被害情報の推計・把握と配信によるG空間防災モデルを構築
•
沿岸部10mメッシュの分解能での「世界初」のリアルタイム津波浸
水予測とG空間情報の活用による建物被害予測を,地震発生から20
分以内に完了させ,実証自治体での災害対応の基盤情報に組み込
み,準天頂衛星からのメッセージ送信や災害に強いワイヤレスネッ
トワークを活用し,ユーザに対して確実に情報を配信
NEC SP研究会
28
東北大
越村教授提供
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
リアルタイム津波浸水・被害予測・災害情報配信
による自治体の減災力強化の実証事業体制図
4ZL'
*89"K?A!
>
[=<
[=
5,^7
*
5@V?A!
ebo|ebczghzi|
VG,
dr
D T%;
*+
vawibr21{M3
F5
ybtxgsjfu
kgmqjn
Y
O&)l|i
4Z
Y{[=
J{*{&BN!
L'hze]_`M#$
&BSI{[=[
*X?{UO
021P3
[=<{[=Q
>Q
*
W/R?A.-
*+Q
H:E
%C(apv
\6
YQ
事業代表者: 東北大学災害科学国際研究所 越村俊一教授
NEC SP研究会
29
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
リアルタイム津波浸水シミュレーションの実現に向けて
例えば,静岡市の場合:
領域4
領域3
領域2
領域1
地震・
津波発生
シミュレーション領域
領域5
G空間情報を活用した次世代防災・被災地支援システム研究会 NEC SP研究会
第3回シンポジウム
太平洋沖 1404Km×845km
741万格子(810mから10m)
ΔT = 0.05 432,000ステップ(6時間)
浮動小数点演算数 2.5× 1015回
30
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
リアルタム津波浸水・被害予測システム処理フロー
(!&#
地震発生後20分以内に
,3$&+.
lC`W
@iOˆBY‚@…/'!.ˆB{D
z|V[<ƒ
• Qog…}P~
• ZG^hR45#.%#z|>?0%5{D
地震断層モデルに基づく津
波発生予測
SX-ACEによる10mメッ
シュの津波浸水予測および
被害推計
+- %.
@iOˆBY‚
@…/'!.ˆB{D
Qog…}`W
@…m€0%5)3/#{D
/$1!z|ŠVXf<UFKe
7,$&
XfAI%#
  a_@u%#
  nq\%#
  ‹J%#
z|>?yŒ
=S8N
(
7
"7#
z|:Ž:
&,$&
Xf]c;I%#
  z|‡tBC
  z|ŠV†
  z|ŠVw
7,$&
AI%#
  9d%#
  j\%#
&,$&
;I%#
  ŠVrF9d
  j\pk‰T
NEC SP研究会
31
)'*",$
ŠVrF9dj\pk‰TsE{X
pkHT
)7*1#4
5#.z|ŠV-16
27]cŠVw<ƒ%#
9dj\%#Lp
kHTpkˆB{X
v
j\b„
x
j\M„
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
津波浸水予測プログラム
プログラムフロー
地震による海面水位の変動を入力として,津波が到達す
る時刻,津波の高さ等を計算
•
•
時刻更新
計算モデル:非線形長波理論
計算スキーム:Staggered leap-frog法
プログラムの特徴
•
•
Xeonサーバ用に開発されたコードがベース
•
メモリバンド幅制約:B/F = 1.82 (単精度)
質量保存の式とナビエ・ストークスの式において,
計算負荷とメモリ負荷が非常に高い
チューニングのポイント
•
•
•
初期評価結果
(single core)
ADBの効果的な活用
•
差分式での局所性活用
高ベクトル化率:99.6%,平均ベクトル長:235
ループ内条件式の削減,インライン展開等
NEC SP研究会
LX 406Re-2
32
SX-9
SX-ACE
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
津波浸水予測プログラムの実行結果
LX 406Re-2
SX-9
SX-ACE
160
実行時間(分)
140
120
100
80
60
40
20
0
10分ライン
32
64
128
256
512
プロセス数
NEC SP研究会
33
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
今後の予定
•
12月末 プロトタイプシステム完成
•
1月~3月 対象自治体を交えての実証実験の実施
•
3月16~18日 国連防災会議で成果発表
•
3月末 運用システムとして整備
•
4月以降 サービス開始,対象エリア・対象自治体の拡大
NEC SP研究会
34
平成26年11月11日
高メモリバンド幅アプリケーションのための
次世代スーパーコンピュータR&D
35
Hiroaki Kobayashi, Tohoku University
高メモリバンド幅アプリケーションのための次世代スーパーコンピュータに関する取り組み
~文科省「将来のHPCIシステムのあり方に関する調査研究」~
HPCI調査研究の背景と東北大チームがめざすところ
y
y
NGV 1B/F (256Gflop/s)
256.0
128.0
m
ea
Str
64.0
BW
6
25
GB
/s
SX-9 2.5B/F
(102.4Gflop/s)
m
ea
Str
32.0
72
.9
5G
B/s
B
1G
/s
BW
64
.7G
BW
B/s
43
.3
Power7 0.52B/F(245.1Gflop/s)
FX-10 0.36B/F (236.5Gflop/s)
Sandy Bridge 0.27B/F (187.5Gflop/s)
K computer 0.5B/F(128Gflop/s)
Tesla C1060 1.3B/F (78Gflop/s)
/s
GB
3
m
ea
BW
Str
m
a
e
Str
'201$&+
'201$&+
'201$&+
*4,33$-,5,-278 )2..3/$-,5,-278 (,60/$-,5,-278
y
GB
4.8
/s
Nehalem EX 0.47B/F (72.48Gflop/s)
Nehalem EP 0.55B/F (46.93Gflop/s)
FX-1 1.0B/F (40.32Gflop/s)
SX-8 4B/F (35.2Gflop/s)
BW
.6
m
58
ea
/s
Str
BW
GB s
m
7.6 GB/
ea
1
r
t
0
.
S
/s
B W 17
GB
m BW
.0
ea
10
Str eam
BW
Str
m
ea
r
t
S
16.0
8.0
4.0
多くのアプリがメモリ性能律速の状況を打破!
2.0
For Memory
intensive
applications
1.0
For Computationintensive applications
4
2
1
0.5
0.25 0.125 0.063 0.03
Application B/F (Memory Access Intensity)
0.01
NEC SP研究会
36
WX
Za=
CJ@S
U
BGGi
IN
[Y_
U
HPCI
L9TDHbcd^g\U#OR
@JLPQiK!QFH:R
UBi
]h\f`eML"R@JUI>RE?<
A;iKV_dI#:UCR
0.5
8
Source: 2012 report
of computational
science roadmap
Attainable Performance (Gflops/s)
p
%
平成26年11月11日
Hiroaki Kobayashi , Tohoku Univ.
東北大チームの調査研究の背景
~ハイエンドHPCシステムの「脳梗塞」状態からの脱却~
データ転送隘路(メモリ制約)で膨大な数の演算器に十分データが届いていないた
め,演算器が無駄になっている
•
例外としてLINPACK:90%以上の実行効率を達成できるので,CPU単体とシステ
ム規模のピーク性能が意味を持つが...
数%の効率を前提にシステム規模で必要性能をリカバーするまえに,チップ内に眠っ
ている演算器を有効活用することを考えるべき.そのためには
メモリサブシステム設計(先進デバイスとアーキテクチャ技術の融合)と利用技術(ソ
フトウェアによるデータ管理)のコデザインによるシステム再設計をする時期
SIMDをワイド化してベクトルユニットを強化する方向性はIBM/AMD/INTELなども
目指すところ.我々のFSはそれをすでに先取りしており,重要なポイントはそれ
を生かすメモリサブシステムをいかに他に先駆けて実現するかである
メモリから撤退したといわれているインテルが次期プロセッサ向けメモリサブシ
ステム設計/開発に取り組んでいる
IBMはメモリインタフェースを強化し大容量・高バンド幅のpower8プロセッサを
開発
>OG/P>?EB8DK?AF@L7O9@:>J(0,654
%#$&%#%# -(135+'4N!,*+P"HIKC
MANHIK;D<=@G.7O9@:>J.2-)+'4
NEC SP研究会
平成26年11月11日
Hiroaki Kobayashi , Tohoku Univ.
東北大HPCI FSチームの調査研究の目的
幅広い応用分野で高い実効性能を実現するHPCIシステムの実現を目指し, ピーク演
算性能とバランスのとれた高メモリバンド幅を有するHPCIシステムの検討・開発
ロードマップの策定
特に,高メモリバンド幅を必要とする,地震・津波,集中豪雨など都市災害の被害予測と避難予測に不可欠
なアプリケーションがHPCIシステムに必要とする性能・機能を明らかにし,その実現のためのアーキテク
チャおよびデバイス技術の検討を通じて,2018年頃にシステムを実現するための開発ロードマップの策定を
行う.
ターゲットアプリケーションの性能要件(例えば,1B/F以上のメモリバンド幅・演算スループット比)を低
消費電力で実現するためのアーキテクチャの調査研究
大容量・低消費電力・階層型メモリサブシステムアーキテクチャ検討
アーキテクチャ,およびデバイスレベルでの低消費電力技術や耐故障技術と,OS,アプリケーションが協調
してその効果の最大化を可能とするシステムソフトウェア技術の検討
オフラインシミュレーションの高速化に加え,様々な時間制約の中でリアルタイムシミュレーションを実現
する上で必要な将来のHPCIシステムが備えるべき機能・性能の明確化
ターゲットアプリケーションによるシステムの評価と2018年頃の実現を目指す開発ロードマップの策定
高メモリバンド幅HPCシステムを活用して,2020年頃に解決が求められる社会的・科
学的課題の明確化とその解決のためのアプリケーションの検討・開発ロードマップ
の策定
自然災害,とりわけ地震津波による災害軽減を目指すため,沿岸データを使用したリアルタイム津波予測・
地震シナリオを含む津波ハザード予測・地震津波に伴う複合被害予測・集中豪雨等を含めた都市災害と避難
の予測といった課題に取り組む.
我が国の産業界の国際競争力の維持・強化のために必要な先端ものづくりを実現するための課題に取り組む
自然災害に対する防災・減災,および先進ものづくり分野での社会的・科学的課題の明確化
ターゲットアプリケーションの実行に適したHPCI システムの機能・性能要件の明確化
システム評価用ベンチマーク開発
NEC SP研究会
38
平成26年11月11日
Hiroaki Kobayashi , Tohoku Univ.
研究開発体制
アプリ・システム・デバイス三位一体でスパコンをバランス良く再設計!
&
ldw†lde„no„p†
*…-NEˆ'!
;8<;
2;R8<
#%;D
8<o„p†
S.K8<
S.K8<-+
108<M6-+
-NEYL5AC
$S.(:
-NEY,$g
&
O
!"
B=8<M6-+
Q>;DP
&zdhƒsrh(:
.J
4
8<
|}|†f
ˆ:7…;7I
Tb!9_Z‡\`G
/cy`)H^M6
Ġvzry`?
ˆp†krucy_
zrqZ]VXUWmns{
`)H^\`M6Ġ
vzry`?
ˆc†gshq~b
3[aF@twdn
D`)H^\`M6
Ġvzry`?
cyj†m€„)H
lxi‚†y
NEC SP研究会
mns{)H
lxi‚†y
39
twdnD)H
lxi‚†y
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
総合防災シミュレーションの実現
DILNQDMO
!**&"
!-0132%("
!,-)(/"
$
!-.+'#'&(*&-"
,-)(/
<>?HNQF =DILNQDMOB54=KCGEJ
B9A
MMA,
8
<9A=DILNQDMOB6
**&
;:=;=DILNQDMOB6
-.+'#'&(*&-
RSGDX
-0132%(
MMA2
STOC-CADMAS
(STOC-ML,NS,CADMAS)
NEC SP研究会
(Micro-scale)
(Macro-scale)
MMA1
RSDGX
Seism3D
(
7@P=DILNQDMOB6
40
平成26年11月11日
Hiroaki Kobayashi , Tohoku Univ.
HPCI FSで得られたシステム概念設計結果
ikpzƒt„sc„epfn}
  @> I†2&
Ncw;(7XSQikpz@>
Node0 4TFlop/s
CPU01 TFlop/s
core core core core
  J^aR>4C,b!JX*1TP`i
kpz
•  ikpzv„f7N100PF
•  ikpz{|7N 100 ~ 200 PB/s
•  ikpz{|HNM3.2PB ~ 6.4PB
Node xxxx
CPU0
1 2 3
24B/F
1 2 3
core core core core
VLSB VLSB
12B/F
Shared memory
Shared memory
Storage
  $?U5#‰ikpz.‰
 ƒH"{|Y0
  t„sR_Y{|H‡128‰256GB
 t„s-47‡4TFlop/s
  {|u‚s‡4ˆ8TB/s
  UMAc„epfn}
  LFD9b1OR+BK
t„s
E
 4CPU(16gc)X]`SMPt„s%
  CPUZ8/YLOy€ngcƒxfr€w
loh
  2.5'†3'39WV<qudk
9b1OR1{||j~„€:X]`
L{|u‚sY0
  )1|j~„€…1|j~„€Y1
\$?
  ikpzƒqudkA@>
  -4[Yq„m67G=@>
NEC SP研究会
41
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
FS検討システムとXeonベース推定システムの比較
高次元トーラス
40GB/s x2
20GB/s
10GB/s x2
Socket: 1TF
2~4 B/F
Socket: 1.6TF
core : 90GF
1 B/F
1~2TB/s
0.05TB/s
0.1TB/s
128GB x 2
(NUMA)
検討中のFS機
SMP(UMA)アーキテクチャ
4TF, ~8TB/s(~2B/F), ~512GB, 1~1.6KW
NEC SP研究会
Xeon推定@2018
NUMAアーキテクチャ
3.3TF, 0.2TB/s(0.1B/F), 128GBx2, 0.4KW
42
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
高メモリバンド幅システムの優位性(1/2)
~INTEL Xeonベースのシステムとの性能比較~
全体実行時間(=通信時間+演算処理時間)を評価
Xeon(推定)で正規化
Xeon推定
正規化性能/Watt
正規化性能
FS機
◆ 要求B/Fが高いSeism3D,RSGDXの消費電力
あたりの性能は,FS機の方が4~8倍高い
◆ 要求B/Fが低い数値タービンににおいても
FS機はXeonと同等の性能/消費電力
NEC SP研究会
43
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
高メモリバンド幅システムの優位性
~INTEL Xeonベースのシステム(2018年頃)との性能比較~
実行時間(hour)
Seism3D
Xe
プ on:
ロ
セ
ス
数
→
増
加
Su
に
pe
よ
rs
ca りキ
ャ
la
ッ
bi
シ
lit
ュ
yが
ヒ
得
ッ
ら
ト
れ
率
る
up
要求時間: 8時間以内
FS機
Xeon推定
Xeon:
キャッシュ
ヒット率変
わらず
プロセス数
(並列処理規模)
プロセス数を増やす事でキャッシュヒット率が向上し,実行時間が短縮されるが,最終的にはキャッシュヒットしないリクエストのメ
モリアクセス時間が性能を決める HWの持つメモリ帯域が大きいシステムが有効
Xeon推定機を用いてFS機(100Pflop/s)と同等の実行時間を実現するためには,FS機の64倍のプロセス数,
すなわち640万プロセスを処理できる640万ノードのシステム,ピーク性能3.2EFlop/sの性能が必要
:そのときの消費電力は291MW(14nmを想定) → 非現実的 NEC SP研究会
44
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
東北大学サイバーサイエンスセンターの目指す役割
現在のHPCIシステムの安定運用・高度化への貢献
NEC SP研究会
将来のHPCIシステムの研究開発への貢献
45
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
HPCに関する研究・人材育成機能の強化
高性能計算技術開発(NEC)共同研究部門の新設
設置期間: H26.7.1~H30.6.30
% ( # , 8
C
9
D
.
,
8
C
9
/
D
.
& ' ! 6 7 ; @
+ " )
=
:
0
-
<
B
D
/
3
-
-
7 D > D 5 C ? A D ; 2 C 4 -
サイバーサイエンスセンター
組織図
46
*
-
%
-
1 $ ' ! % 0 - /
・小林 広明 (教授)
・滝沢 寛之 (情報科学研究科・准教授〕
・江川 隆輔 (准教授〕
・撫佐 昭裕 (客員教授, NEC〕
・横川 三津夫(客員教授, 神戸大学〕
・百瀬 真太郎 (客員准教授, NEC〕
NEC SP研究会
% 平成26年11月11日
Hiroaki Kobayashi, Tohoku University
Š7rxh<t„_Ò
ÓcfƒŸ
§l£˜ŸH5”©¨L
ynH…/…Ó
• 
P
¶Ñ¿Ñ²Ï
ÁÈѹŸvk<t
ž†—¨cf„_
³­¾Ñ
³­¯Ï¶
·Ï¹Ñ
ZG][#
ŸE€]ž†
—¨cf„_
´¶
ȂE
')
€]
Š1
– 
– 
• 
I
q9
:‘ Ÿ!bŸ3ԏ¥ ËѼ¬
ϱŴϟcf„_¡Ÿ{Y
&$Ÿxhe&oŸcfŸ
’a•›Ô´ÆÈÍÑ´ÉÏe&ŸŠ1
ž{Y
– 
– 
xhe&‚ŸcfoŸŠ1´
ÆÈÍÑ´ÉÏ<tž†—¨cf„_
DqÐcfB
• 
xhe&oÐM<toŸcf
8"
e&
cf
e
NEC SP研究会
&
c
f
;
%
&
&
$
c
f
O
†
Q
…
M
47
– 
• 
g…ªU]•™Ë«Ì¹­ÇTS´ÆÈÍÑ´É
ÏÒW,e& ˆcf;ŸcfÓ
‡WÐVWž|—¨¶Ñ¿Ñ²ÏÁÈѹ´¶»
ǟcf„_ÒÐJ%lm`B)Ô
‰R~cfONŸcfԘŸÓ
ƒD‘=4—¨8"e&cfeŸ
!0Ðz2žŽ›Ôxhe&Ðxh
Oe&Ÿ‚žj~•™&ˆ`Ԑš
*}`Iq9
– 
&
$

.
´¶»ÇŸŠ1ž†—¨cf„_Ÿ*F
Ķ½ ˜©ªu(—¨´¶»Ç‘n’
¦©¨ËѼ¬Ï±Å´ÏŸcf„_¡Ÿ{Y
¥ ˜Ÿ$O†¦+DŸ
>p•‹cfÐDqž6
/18"e&cfeÂε®°½ŒÀº±¼Ñ
¹wKU]¸ËÈÑ´ÉÏÊßNi¡Ÿ^
ª~–›\&Bcf?XŸNi
– 
– 
ŸPH¶¿²Ïž†—¨cf
“©¢œžÔž-—¨sgO„_CAª¤
d¡¶¿²Ï@Ð]CAª*F
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
さいごに・・
$!(.$!"-%&-'.),#+*
ユーザ支援体制
:EC?B1")\%
'A>8QXGV
SB3#Z2,\
$0B
,+
"*
5B\<EA>
82@/(TNWB
&\.A9=,7
777777B%'3#
!IJMS"B5Z
2",B%'Z3#
!IJMSB
2\6
"A
4;D,B
RYL[,*
77771"?=$-77
7777FA
J[O[HYPU[KI
JMSB%'3#
高速化支援実績
NEC SP研究会
48
お問い合わせ先:
uketuke@cc.tohoku.ac.jp
平成26年11月11日
ユーザー支援・講習会・利用相談
遠隔地への配信型講習会の実施
講習会(平成26年度18回実施予定)
大阪大学、秋田大学
UNIX入門 (5/26&11月~)
他大学での出張講習会の実施
大規模科学計算システムの紹介と利用法(5/27&11月~)
大規模科学計算システムにおける高速化技法の基礎(5/
28&11月~)
岩手大学、弘前大学、山形大学、秋田大学、会津大学
並列プログラミングの概要とOpen MP プログラミング入門
(5/29&11月~)
MPIプログラミング入門(5/30&11月~)
可視化システムの利用法(6/3&11月~)
岩手大学・山形大学での出張講習
(2007年から)
MATLAB入門 (6/6)
ネットワークとセキュリティ入門 (8/6)
大阪大学との講習会の遠隔
相互配信(2009年度)
プログラム相談・利用相談
Gaussian入門 (8/29)
Mathematica入門 ((9/3)
利用相談窓口・メールでの相談
MARC入門 (9/4)
プログラミング相談,ライブラリ,アプリケーショ
ン,統計解析,ネットワーク等の相談
計算サーバにおける高速化技法の基礎(11月~)
どなたでも受講できます.11月以降の開催情報他はこちらを参照ください:
NEC SP研究会
http://www.ss.cc.tohoku.ac.jp
49
平成26年11月11日
情報処理学会分散コンピュータ博物館
先端コンピュータ/ネットワーク機器の保存・展示の取り組み(アウトリーチ活動)
サイバーサイエンスセンター展示室の充実
~情報処理学会分散コン
ンピュー
ータ博物館の
の認定~
 
 
D@NXD@AVFGVHX#
  1998.;GVHX/6)"2W240
3CVPSXH[MIKUXB>7#
  SENAC-1)"*&
  !CVPSXH(,EFJR$
  FXOXCVPSXH(,EFJR$
  MIKUXB
  *'&Y,QLS?TZ
/+624%
  \*/%1=4-<
  ]59
:48%
NEC SP研究会
50
平成26年11月11日
Hiroaki Kobayashi, Tohoku University
謝辞
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Tohoku University
Hiroyuki Takizawa
Kentaro Sano
Ryusuke Egawa
Kazuhiko Komatsu
Mitsumasa Koyanagi
Shunichi Koshimura
Fumihiko Iwamura
Takafumi Fukushima
Kangwook Lee
Hiroaki Muraoka
Takahiro Hanyu
Hiroshi Matsuoka
JAMSTEC
Yoshiyuki Kaneda
Kunihiko Watanabe
Keiko Takahashi
Takane Hori
Mamoru Hyodo
Kenichi Itakura
Hitoshi Uehara
PARI
Taro Arikawa
NEC SP研究会
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Riken AICS
Mitsuo Yokokawa
Atsuya Uno
University of Tokyo
Takashi Furumura
Muneo Hori JAXA
Kazuhiro Nakahashi
JAIST
Yukinori Sato
Osaka University
Go Hasegawa
Shinichi Arakawa
JMA
Hideo Tada
Chiashi Muroi
Keiichi Katayama
Eiji Toyoda
Junichi Ishida
Takafumi Kanehama
Meisei University
Kanji Otsuka
51
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
NEC
Yukiko Hashimoto
Shigeyuki Aino
Hiroshi Takahara
Akihiro Musa
Osamu Watanabe
Takashi Hagiwara
Yoko Isobe
Shintaro Momose
Akihiro Yamashita
Yasuhisa Masaoka
Yasuharu Hayashi
Shinji Tanaka
Takashi Abe
Hiroshi Matsuoka
Takashi Soga
Other NEC Engineers
Kanazawa Institute of Tech.
Daisuke Sasaki
Tohoku Micro-Tech
Makoto Motoyoshi
Yamagata Univ.
Jubee Tada
平成26年11月11日