日本語版ダウンロード

13
マルチフェーズフィールド法を用いた
金属多 結晶組 織 形成シミュレーションの
大 規 模 GPU 計算
Multi-GPU Computation of Multi-phase Field Simulation of the Evolution of
Metallic Polycrystalline Microstructure
量子モンテカルロ法に基づく
振 動 状 態 解 析の大 規 模 並列 計算
A Large-scale Parallel Computation for Vibrational State
Analysis Based on Quantum Monte Carlo method
個別要素 法による粉 体の大 規模シミュレーション
Large-scale DEM Simulations for Granular Dynamics
マルチフェーズフィールド法を用いた
金属多結晶組織形成シミュレーションの
大規模 GPU 計算
山中 晃 徳 * 岡 本 成 史 ** 下川辺 隆 史 *** 青木 尊之 ***
* 東 京 農 工 大 学 大 学 院 工 学 研 究 院 先 端 機 械システム部 門 ** 東 京 農 工 大 学 大 学 院 工 学 府 機 械システム工 学 専 攻 *** 東 京 工 業 大 学 学 術 国 際 情 報センター
金 属 材 料の内 部で生じるミクロな多 結 晶 組 織 形 成のシミュレーション法として注 目されているマルチフェーズフィールド
( MPF )法を複 数の GPUで高 速かつ大 規 模に並 列 計 算する方 法を開 発した。本 稿では、数 値 計 算と並 列 処 理のためのデー
タ通 信を非 同 期 実 行するためのオーバーラッピング法を導 入した MPF 法の計 算 手 法を紹 介する。さらに、開 発した GPU 計
算 手 法による多 結 晶 粒 成 長の大 規 模 3 次 元シミュレーションをGPUスーパーコンピューター TSUBAME2.5 に実 装し、良 好
な実 行 性 能が得られたことを示す。
はじめに
1
演 算とデータ通 信を非 同 期に行うアルゴリズム )と、それを東 京
工 業 大 学 学 術 国 際 情 報センターの GPUスーパーコンピューター
TSUBAME2.5 に実装して実施した、金属多結晶組織形成の大規模
3 次 元シミュレーションを紹 介し、我々が開 発したGPU 計 算 法の
実行性能評価を示す [4] 。
地 球 環 境に与える負 荷の低 減のために、ハ イブリッド自 動 車など
の燃費の良い自動車の開発が活発である。自動車の燃費をさらに
向上させるためには、エンジンやモーターの効率向上の他に、車体
の軽量化も重要な技術課題とされている。自動車車体の軽量化は、
使 用する金 属 板 材を薄 肉 化することにより可 能であるが、衝 突 安
マルチフェーズフィールド法
全 性を確 保するために強 度も高めることが必 要とされる。しかし
2
一般には、金属材料は強度を高めると加工性は低下する。すなわち、
薄くプレス加 工する際に割れ易くなる。そのため従 来の材 料 研 究
本研究で使用したMPF 法は、1999 年にSteinbachらによって提案
開 発では、絨 毯 爆 撃 的な実 験を行い、材 料の特 性を支 配する材 料
された [1] 。MPF 法は、次 式で表される材 料の全 自 由エネルギーが
内部のミクロな構造の空間分布や形態を制御するための適切な合
単調に減少するようにミクロ組織形成が進行するとの仮定に基づ
金 組 成や製 造プロセスを見つけ出す努 力を重ねてきた。しかし近
いている。
年では、材 料 研 究 開 発の国 際 競 争が激 化しており、如 何にして効
率 良く、無 限の組み合せが存 在する合 金 元 素や製 造プロセスの中
から、所 望の特 性を具 備する材 料を作るための条 件を見つけ出す
かが極めて重要となっている。
ルギーと呼ばれる。W ij や a ij は界面エネルギーや界面幅に関係づけ
縮するために、計 算 材 料 学に基づく数 値シミュレーションにより
られるパラメータである。 ( r, t )は、フェーズフィールド変数と
材料のミクロ組織や特性を予測する計算技術の開発が世界的に活
呼ばれ、異なる N 個の結 晶 粒からなる系を考えたとき、空 間 座 標 r
発となっている。その中でも、材 料 中のミクロ組 織を予 測するた
と時間 t において、ある i 番目( i = 1 ~ N )の結晶粒が存在する確率
めの強 力な数 値シミュレーション方 法としてフェーズフィールド
を表す。したがって、たとえば番 号 1 の結 晶 粒(結 晶 粒 1 と呼ぶ)
法が注 目されている。特に、実 用 金 属 材 料のほとんどで観 察され
が存在する座標では ( r, t )= 1 、結晶粒 1 が存在しない座標では
る多結晶構造を有するミクロ組織の形成過程を計算するための方
( r, t )= 0 と定義する。また、結晶粒 1 と他の結晶粒との界面を
法として、マルチフェーズフィールド( MPF)法 [1] が世 界 標 準とな
有限厚さの領域と定義し、そこで 0 から 1 へと滑らかに変化するも
りつつある。しかしながら、2011 年にゴードンベル賞を受 賞した
のと定義する。以下では各変数について、
( r, t )は省略して記する。
通 常のフェーズフィールド法を用いた合 金 凝 固の計 算 [2] とは異な
式(1)に示した全自由エネルギーの時間に対する単調減少を仮
り、MPF 法では複雑な非線形項を含んだ複数の偏微分方程式を解
定すると、 の時間発展方程式は、Allen-Cahn 方程式より次式で
く必 要があるため、数 値 演 算とメモリの両 面で計 算コストが大き
与えられる。
いことが問題である。
そこで我々の研 究では、GPUを用いてMPF 法を高 速かつ大 規 模
に並 列 計 算する技 術を開 発している。本 稿では、MPF 法を多 数の
GPUを用いて計算するために必要なオーバーラッピング法 [3]( 数値
02
ここで、右辺第 1 項はポテンシャルエネルギー、第 2 項は勾配エネ
これに対して現 在では、材 料 開 発のコストや期 間を飛 躍 的に短
ここで、n は任意座標において非零となるフェーズフィールド変数
の個 数、 はフェーズフィールド変 数の変 化を規 定するモビリ
3.2 領域分割
ティーである。
MPF 法を複数のGPUで計算するために、全計算領域を複数のサブ
なお数 値シミュレーションにおいては、式( 2)に示す の偏 微
領 域に分 割し、各サブ領 域の計 算にCPUとGPUを 1 基ずつ割り当
分 方 程 式を時 間と空 間について離 散 化し、3 次 元 直 交 格 子 上でス
てる、領 域 分 割 法を採 用した。例えば、図 1 に示すように、NX ×
テンシル計 算を行う。本 研 究では、空 間 微 分は 2 次 精 度の有 限 差
NY × NZ 個の差分格子からなる全計算領域を 3 次元分割により x 、
分法、時間積分は 1 次精度のオイラー法を用いて計算した。
y 、z 方向にそれぞれ X 、Y 、Z 分割する場合には、サブ領域に含まれ
る差分格子点は NX /X × NY /Y × NZ /Z 個となる。本研究では、ス
テンシル計 算を行う為、隣 接するサブ領 域 間のデータ通 信が必 要
MPF 法の複数 GPU 計算
3
となる。そのため、各サブ領域の x 、y 、z 方向の端面に境界領域を
作成する。すなわち、サブ領域の x 、y 、z 方向の端に、それぞれ 1 ×
NY × NZ 、NX × 1 × NZ 、NX × NY × 1 の境界領域を作成する。境
界領域のデータ通信には、MPI を用いる。なお、本研究で実施した
実行性能の評価では、全計算領域サイズを変えるごとに、1 次元分
割、2 次元分割および 3 次元分割でテスト計算を実施し、実行性能
3.1 Active Parameter Tracking 法
が最も高い領域分割方法を採用した。
本研究で用いたMPF 法では、N 個すべての結晶粒ではなく、任意座
標に存 在する n 個の結 晶 粒に対 応する についてのみ時 間 変 化
3.3 スレッドブロックの設定
を計 算すればよい。したがって、N 個すべての の値や結 晶 粒 番
GPUの性 能を十 分に発 揮させてシミュレーションを行うためには
号 i の値をメモリ上に保存しておく必要はない。そこで本研究では、
スレッドおよびブロックの割 当て方 法が非 常に重 要となる。本 研
メモリ効率化手法としてActive Parameter Tracking( APT)法を
究では、図 2 のように、サブ領域の格子点数が nx × ny × nz の場合、
用いた [5] 。APT 法の詳細は文献 [5] を参照されたいが、MPF 法で多結
x 、y 方向にそれぞれ X ’ 、Y ’に分割した。つまり、サブ領域を nx /X ’
晶 組 織 形 成の 3 次 元シミュレーションを高 速に行うためには、メ
× ny /Y ’ × nz の小領域に分割し、nx /X ’ × ny /Y ’ × 1 のスレッドブ
モリアクセス数やデータ通 信 量を低 減するためにも、APTの利 用
ロックが z 方向に nz 回移動するように計算した。スレッドとブロッ
は必 須である。本 稿では、APT 法の処 理のうち隣 接 差 分 格 子 点の
クの割り当て数については、計 算 領 域サイズや領 域 分 割 数に応じ
データを必要としない処理をAPT1 、隣接差分格子点のデータを必
て、試行錯誤により最適値を決定した。
要とする処理をAPT2 と記する。
図 1 3 次 元 分 割による計 算 領 域の分 割
03
マルチフェーズフィールド法を用いた
金 属 多 結 晶 組 織 形 成シミュレーションの大 規 模 GPU 計 算
図 3 オーバーラッピング法の計 算ダイアグラム
図 2 スレッドブロックの設 定
GPU スーパーコンピューター
TSUBAME2.5 における実行性能評価
3.4 オーバーラッピング法
4
複数のGPUとCPUを用いて並列計算する場合、並列数を増やすほ
ど境 界 領 域のデータ通 信のオーバーヘッドが発 生し、実 行 性 能が
低 下する。そこで本 研 究では、CUDAの複 数カーネルの非 同 期 実
4.1 多結晶粒成長シミュレーション
行 機 能とGPU-CPU 間の非 同 期 通 信 機 能およびこれらの同 時 実 行
本研究で開発したMPF法の複数GPU計算法のベンチマークとして、
機能を利用して、数値演算とデータ通信をCPUとGPUの両方で同
東 京 工 業 大 学 学 術 国 際 情 報センターのGPUスーパーコンピュー
時に実 行し、オーバーヘッドを隠 蔽するためのアルゴリズム(オー
ター TSUBAME2.5 において、多結晶粒成長の大規模 3 次元シミュ
バーラッピング法 )を開発した 。
レーションを実施し、実行性能の評価を行った。実行性能の評価は、
図 3 に、オーバーラッピング法を適 用したMPF 法の計 算ダイア
すべて単精度計算にて行った。
グラムを示す。本 方 法では、GPUで行う計 算を 4 つのストリーム
図 4 に、TSUBAME2.5 で計算した多結晶粒成長シミュレーション
( Stream 1 ~ Stream 4)として用意する。まず、Stream 1 では、各
の 結 果 の 一 例 を 示 す。こ の 例 で は、0.512 3 mm 3 の 計 算 領 域 を
GPU に割り当てられたサブ領域内部に対して式( 3)の時間発展方
1024 3 の規則差分格子で分割し、256 台のGPUを用いて計算した。
程 式の計 算とAPT1 の処 理を行う。これと並 行して、Stream 2 ~
初 期 結 晶 粒 数は 32768 個であり、図 4 では各 結 晶 粒に異なる色を
Stream 4 では、境界領域に対して式( 3)の時間発展方程式の計算
付けて多結晶粒組織を可視化した。多結晶粒成長は、金属材料の
を行う。Stream 2 ~ Stream 4 での計算が終わり次第、GPUのグロー
強度を調節するために行われる熱処理( 焼鈍 )などで生じる現象で
バルメモリにある計 算 結 果をCPU 側のホストメモリへ転 送する。
あり、その際に観 察される結 晶 粒の粗 大 化と収 縮して消 滅する挙
ここでは、CUDAの非同期通信関数
(cudaMemCpyAsync )
を用いる。
動を良 好に再 現できている。このシミュレーションのような大 規
一 方、CPU は 1 計 算 ステ ッ プ 前 に 計 算 さ れ GPU の グロ ー バル
模な計 算 領 域で、かつ非 常に多 数の結 晶 粒で構 成されるミクロ組
メモリ上にある境 界 領 域の計 算 結 果をcudaMemCpyAsyncによ
織の変化を考慮したシミュレーションを行うことで初めて、正しい
りホストメモリへ転 送した後、Stream 2 ~ Stream 4 の処が完 了
多結晶組織の統計学的評価( 例えば、結晶粒サイズの平均値の変
するのを待 機する。Stream 2 ~ Stream 4 の処 理が完 了すれば、
化やその分布の評価 )が可能となる。
境 界 領 域について APT 1 と APT 2 の処 理とそれに必 要なデータ
図 4 で示したような、多 結 晶 粒 成 長シミュレーションの実 行 性
通 信を行う。以 上の処 理により更 新された境 界 領 域のデータを
能を評 価するために、1GPUで計 算する差 分 格 子 点 数を 256 3 、結
cudaMemCpyAsyncによりGPUのグローバルメモリへ転送する。
晶 粒 数を 512 で一 定とし、使 用するGPU 数を変えることで計 算 領
CPUでの計算とデータ通信、および全てのStreamの実行完了を
域サイズを大きくした際の浮 動 小 数 点 演 算 性 能( FLOPS)の変 化
確 認してから、GPUが境 界 領 域に対してAPT 2 の計 算とデータ更
を評 価した。この評 価により、弱スケーリング性 能を評 価するこ
新を行い、1 計算ステップが完了する。なお、ホストメモリ上のデー
とができる。図 5 に、弱スケーリング性能の評価結果を示す。オー
タ更新は、Stream 1 ~ Stream 4 を実行している間に行うことがで
バーラッピング法を導 入せずとも、FLOPS 値はGPU 数に比 例して
きる。
増 加しており、良 好なスケーリング性 能が得られているが、オー
[4]
バーラッピング法を導入すれば、実行性能は全体的に 3 ~ 4 倍は向
上する。この結果、GPU 数を 729 、差分格子点数を 23043 、結晶粒
数を 373248 とした計算では、実行性能は 1.9 TFLOPSとなった。
04
次に、計算領域サイズと結晶粒数は一定とし、領域分割数(GPU
数 )を変 化させてシミュレーションを実 施した際のFLOPS 値の変
化 、すなわち強スケーリング性能を評価した。ここでは、2563 差分
格子点の計算領域に含まれる結晶粒数を 512 で一定とし、計算領
域を 2563 、5123 、10243 差分格子点とした。図 6 に、強スケーリン
グ性 能の測 定 結 果を示す。基 本 的には、どの計 算 領 域サイズを用
いてもGPU 数の増 加によりFLOPS 値は線 形に増 加し、良好な強ス
ケーリング性能が得られているが、2563 差分格子点の計算領域を
128GPUで計算した場合のように、設定した計算領域に対してGPU
数が過多となると、実行性能が低下する。これは、GPUで行う計算
時 間がCPUで行うデータ通 信などの処 理に要する時 間よりも短く
なることで、オーバーラッピング効果が得られなくなったためであ
る。しかしながら、計 算 領 域を 5123 および 10243 差 分 格 子とした
計算では、GPU 数が 100 を超えても良好なスケーラビリティが得ら
れることがわかる。
図4
TSUBAME2.5 で計 算した多 結 晶 粒 成 長シミュレー
ションの結 果 。差 分 格 子 点 数は 1024 3 であり、
256GPU を使 用した 。結 晶 粒ごとに異なる色を付
けて多 結 粒 組 織を可 視 化した 。
図 6 多 結 晶 粒 成 長シミュレーションの MPF 法の複 数
GPU 計 算の強スケーリング性 能 。
図 5 多 結 晶 粒 成 長シミュレ ーションの複 数 GPU 計 算の
弱スケーリング性 能 。
05
マルチフェーズフィールド法を用いた
金 属 多 結 晶 組 織 形 成シミュレーションの大 規 模 GPU 計 算
おわりに
5
MPF 法を用いて、金属材料中の多結晶組織形成の高速かつ大規模
なシミュレーションを行うために、複 数のGPUで並 列 計 算する方
法を開発した。本稿では、開発した計算法をGPUスーパーコンピュー
ター TSUBAME2.5 に実装し、多結晶粒成長の大規模 3 次元シミュ
レーションを行い、優れた実行性能を得られることを示した。現代
の材 料 制 御 技 術を利 用しても、実 験 的な研 究 開 発を繰り返して、
所望の結晶粒サイズを得るための最適条件を決定することは時間
のかかる作 業となる。我々が開 発した MPF 法の複 数 GPU 計 算 法
により、金属多結晶組織の変化を効率的かつ高精度に解析可能と
なれば、材 料 開 発 期 間の短 縮、実 験コストの削 減に大きく貢 献で
きるものと期待している。
謝 辞
本研究は、平成 25 年度および平成 26 年度の学際大規模情報基盤
共同利用研究・共同研究拠点の支援のもと行ったものである。関
係 者の皆 様に感 謝 申し上げる。また、本 研 究の一 部は、科 学 研 究
費 補 助 金・挑 戦 的 萌 芽 研 究( 課 題 番 号 25630322 )から支 援を頂
いた。記して謝意を表す。
参考文献
[1]
I. Steinbach, F. Pezzola: A Generalized field method for
multiphase transformations using interface fields, Physica D,
Vol. 45, pp.385-393 (1999)
[2] T. Shimokawabe, T. Aoki, T. Takaki, A. Yamanaka, A. Nukada,
T. Endo, N. Maruyama, S. Matsuoka: Peta-scale phase-field
simulation for dendritic solidification on the TSUBAME2.0
s u p e r c o m p u t e r, P r o c e e d i n g s o f t h e 2 0 1 1 A C M / I E E E
International Conference for High Performance Computing,
Networking, Storage and Analysis, SC’11, IEEE Computer
Society, Seattle, WA, USA, (2011)
[3]
岡本成史 , 山中晃徳 , 下川辺隆史 , 青木尊之 : マルチフェーズ
フィールド 法 による 多 結 晶 粒 成 長 シミュレ ーション の複 数
GPU計算, 日本計算工学会論文集, Vol. 2013, p.20130018 (2013)
[4]
A. Yamanaka, M. Okamoto, T. Shimokawabe, T. Aoki: Large
scale 3 D multi-phase-field simulation of microstructure
evolution using TSUBAME 2 . 5 GPU-supercomputer,
Proceedings of 2nd. International Congress on 3D Materials
Science, The Minerals, Metals & Materials Society, pp.59-64,
(2014)
[5] S. G. Kim, D. I. Kim, W. T. Kim, Y. B. Park: Computer simulation
of two-dimensional and three-dimensional ideal grain
growth, Phys. Rev. E, Vol. 74, p.061605 (2006)
06
量 子モンテカルロ法に基づく
振 動 状 態 解 析の大 規 模 並 列 計 算
中山 涼 太 * 藤 岡 蔵 ** 北 幸海 ** 立 川 仁 典 **
* 横 浜 市 立 大 学 国 際 総 合 科 学 部 ** 横 浜 市 立 大 学 大 学 院 生 命ナノシステム科 学 研 究 科
本 稿では、我々が開 発した振 動 量 子モンテカルロ(vibQMC )法、およびその並 列 化の実 装 法について概 説する。
vibQMCプログラムの並 列 化 率は 99.9981%であり、東 京 工 業 大 学の TSUBAME2.5スーパーコンピューターシステムを
用いたベンチマーク計 算(最 大 5376 cores)による実 行 並 列 化 効 率は約 91%である。また大 規 模 並 列 計 算の応 用 事 例
として、大 気 中のエアロゾル形 成の前 駆 体となる負イオン核 一 水 和 物( H 3 O 2 - )に対する振 動 状 態 解 析の結 果についても
報 告を行う。
序論
1
方法
2
量子モンテカルロ( Quantum Monte Carlo; QMC)法 [1] は乱数を
本 研 究 で は 多 原 子 分 子 の 振 動 状 態 解 析 に、変 分 モンテカルロ
用いた確率論的な量子化学計算手法であり、原子や分子を問わず
( VMC)法とReptation Monte Carlo(RMC)法という2種類の量子
適 用 可 能な超 高 精 度 第 一 原 理 計 算の一つである。その中でも拡
モンテカルロ法を用いた。本 節ではこれら二 手 法について簡 単に
散モンテカルロ(Diffusion Monte Carlo; DMC)法は、高精度な変
説明を行う。
分エネルギーを与えることで知られている。しかしながら、( i)配
置数変動による誤差(population control bias)が不可避、(ii)ハ
2.1 変分モンテカルロ(VMC)法
ミルトニアンと非可換な演算子の固有値として与えられる物理量
VMC 法では、変 分パラメーターを含む任 意の試 行 反 動 関 数 を
の計算が困難である、といった問題があり、事実上、DMC 法の適用
用いて、次式で定義されるハミルトニアン演算子 ( は
範囲は変分エネルギーの解析に制限されている。
運 動エネルギー演 算 子、 はポテンシャルエネルギー演 算 子 )の
Reptation Monte Carlo(RMC)法 [2] は、DMC 法と同様に虚時間
期待値 を考える:
発 展を利 用した高 精 度な計 算 手 法でありながら、上 記の問 題を解
決することが出来る方法である。しかしRMC 計算は計算コストが
大きいため、その適用範囲は水分子 [3] など極めて小さな系に留まっ
ている。
本 稿では、大 規 模 系に対する RMC 計 算の実 現に向けて実 装し
た RMCプログラムの並 列 化の実 装 案を概 説し、東 京 工 業 大 学の
TSUBAME 2.5スーパーコンピューターシステムを用いたベンチ
ここで は多次元の一般化座標であり、配置ある
マーク計算(最大 5376 cores)の結果について報告を行う。また大
いは walker と 呼ばれる 。また は局 所エネルギーで
規模並列計算の応用計算例として、大気中のエアロゾル形成の前
あり、試 行 波 動 関 数には実 関 数を仮 定した 。
( 1)式はエネルギー
駆体となる負イオン核一水和物(H 3 O 2- )に対する振動状態解析の
期 待 値 が局 所エネルギー の 重み付き平 均によって算 出
結果について報告を行う。
されることを意味している。VMC 法では、 に従う配置のセット
をメトロポリス法 [4] によって生 成することでエネル
ギー期 待 値の算 定を行う 。
VMC 法では全エネルギーだけでなく、任意の演算子の期待値を
与えることが可 能であるが、その計 算 精 度は試 行 波 動 関 数 の
質に強く依 存する。多 電 子 系のQMC 計 算では、分 子 軌 道 計 算で
得られる単一( Hartree-Fock 法)あるいは複数( 配置間相互作用
法)
のSlater 行列式にJastrow 因子と呼ばれる相関因子を付与した、
Slater-Jastrow 型試行波動関数を用いることが一般的である。多
原 子 分 子の振 動 状 態 解 析を主 目 的とした本 研 究では、試 行 波 動
関数には次式で表されるVibrational Self-Consistent Field(VSCF)
07
量 子モンテカルロ法に基づく振 動 状 態 解 析の大 規 模 並 列 計 算
型関数 [5] を用いた:
を用いた。ここで、 、 は振動モードの換算質量 、 は分 散 を持つ正 規 分 布 乱 数、 は drift velocity
である。また重みW によるreptileの採 択・棄 却にはメトロポリス
ここで は i 番 目の振 動モードのmodal functionである。本 研
法を用いた。
究では調 和 振 動 子の固 有 関 数の線 形 結 合によって を展 開し、
十 分 長い虚 時 間 長 の下、reptile に対して採 択・棄 却を繰り返
[6]
Umrigarらによって開 発された線 形 法 を用いて展 開 係 数の最 適
すことで、
reptile の両端の配置 q(0)、q( )の集合は分布 × へ、
N
( N /2 )
化を行った。また最 適 化したVSCF 関 数は次 節で説 明するRMC 法
reptile の中央の配置 q
における試行波動関数として用いる。
エネルギー期待値などハミルトニアンと可換な演算子の期待値は、
2.2 Reptation Monte Carlo(RMC)法
は分布 へと収束する。本研究では、
分布 × を用いて次式で定義されるmixed estimatorによっ
て算出した:
以下、表記の簡単化のため問題を 1 次元とする。時間依存
Schrödinger 方程式の虚時間発展を利用したQMC 法では、任意の
試 行 波 動 関 数 に虚 時 間プロパゲータを作 用させることで正
確な波動関数 を得る:
またポテンシャルエネルギーや分 子の幾 何 構 造など、ハミルトニ
ここで は虚時間である。RMC 法では以下に示す仮想的な分配関
アンと非 可 換な演 算 子に対しては、分 布 を直 接 解 析すること
数 Z 0 を導入する:
で期待値の算定を行った。
3
虚時間ステップを として虚時間プロパゲータ をN
個に短時間分解し、二次の短時間近似( Suzuki-Trotter 分解 [7 ] )を
並列化
用いることで、分配関数に対する以下の式を得る:
前節で概説したように、QMC 法による物理量の算定では、VMC 法
ではwalkerに対して、RMC 法ではreptileに対してメトロポリス法
ここで、
による多 重 マルコフ連 鎖を発 生させる。その際 、サンプリング回
数が十分多く、計算するサンプルの総量が変わらなければ、その生
成 方 法に寄らず統 計 学 的に等 価な結 果を得ることができる。した
がって、QMCアルゴリズムの並列化に向けた最も単純かつ有効な
戦 略は、統 計 的に独 立した複 数のwalker/reptileを用いた配 置 空
間の同時サンプリングである。具体的には、単一のwalker/reptile
を用いてサンプリング数を増やす代わりに、サンプリングに用いる
である。q( )は虚時間 における配置であり、各虚時間におけ
i
walker/reptile 数を増大させる( 図 1 参照 )。
る 配置のセット を虚時間 Pathあるい は reptile と呼ぶ。
また二次近似として次式を用いている:
ただし 、 、 、および
である。
(5)式において、 は に従うreptileを生成する
プロパゲータ、 はそのreptileの重みと解釈するこ
とができる。本研究では、このreptileの生成にLangevin 方程式
図 1 マルコフ連 鎖の分 割の模 式 図
08
2)
RMC 計 算では r (R1MC
=0.3%となった。これは非 並 列 計 算( 1core)
時における処 理の内、VMC 計 算では 99.9981% が、RMC 計 算では
99.975%が並列化されたことに相当する。
図 2 並 列 化 QMCプログラムの概 略 図
本 研 究では、複 数になったマルコフ連 鎖を複 数のプロセスを用い
て並 列 処 理する。並 列 化された QMCプログラム概 略を図 2 に示
す。ここでデータ処 理 用に用 意される 1 つのプロセスをマスター
プロセス( Master Process)、マルコフ連鎖の計算を並列的に処理
するために用 意される 1 つもしくは複 数のプロセスがスレーブプ
ロセス(Slave Process )である。並列化の実装にはMPI( Message
図 3 VMC 法 、RMC 法の Speed up
(12 並 列 時の計 算を1とした)
Passing Interface )を用い、ライブラリーにはOpen MPI 1.4.2 を用
いた。
4.2 負イオン一水和物 H 3 O 2- の解析
結果と考察
4
本 手 法を用いて、大 気 中のエアロゾル形 成の前 駆 体となる負イ
オン核 一 水 和 物( H 3 O 2- )の振 動 状 態 解 析を行った。H3 O 2- は大 気
中に存 在する負イオン核 OH-に水 分 子が1つ配 位した系である。
原子核の量子効果を含めない通常の第一原理計算では、図 4
( a)に
示すように中央のプロトンが片側の酸素原子に寄った構造が最安
4.1 並列化効率
定となる。しかし、このプロトン移 動の遷 移 状 態におけるエネル
ギー障壁は極めて小さいことから(0.88 kJ/mol)、振動基底状態に
本研究では、東京工業大学のTSUBAME2.5スーパーコンピューター
おいては中央のプロトンが酸素原子間の中央に位置した遷移状態
システム上で、最 大 5376プロセス( 1 process/core × 12 cores/
構造が最安定構造となることが示唆されている( 図 4(b))[10] 。
node × 448 nodes)を用いて、並 列 化 効 率に関するベンチマーク
本研究では、H3 O2- 及びその重水素化(D)体、三重水素化( T )体
計算を実行した。ベンチマーク計算に使用した分子系は、正イオン
に対して、振 動 基 底 状 態と中 央のプロトン移 動に関する振 動モー
H 3 O + の一水和物 H 5 O 2+ の振動基底状態であり、ポテンシャルエネ
ド(以下、架橋振動)の基音凖位の解析を行った。試行波動関数は
ルギーにはBowmanらによってCCSD( T)/ aug-cc-pVTZ レベルの
VSCF 波動関数、PESにはHuangらによってCCSD
(T )
/aug-cc-pV T Z
第一原理計算を再現するように作成された解析的なポテンシャル
の第一原理計算を再現するように作成された解析ポテンシャルを
関数 [8] を用いた。
用いた [8] 。
12 並列(1node)計算を基準にした際のVMC 計算とRMC 計算の
VMC 法とRMC 法によって得られた各 系の零 点 振 動エネルギー
ベンチマーク結果を図 3 に示す。5376 coresを用いた並列計算にお
( ZPE)と架橋振動の基本振動数を表 1 に示す。変分エネルギーで
けるspeed up
(=Time[12 process] / Time [ N process])は、VMC 計算
あるZPEに注 目すると、全ての系においてRMC 法による値がVMC
で 4868(= 405.70 × 12 )倍、RMC 計算では 2307(=192.25 ×12 )倍
法よりも低いことから、RMC 法によって計 算 精 度が改 善されてい
である。各計算における問題サイズは不変( アムダールの法則 [9] )
ることがわかる。また架 橋 振 動の基 本 振 動 数の実 験 値( H 体)は
と仮定し、これらの結果とから両手法の基準計算(12 並列)におけ
697cm -1 と報 告されているが、RMC 法は誤 差 12 cm - 1 の精 度で実
る逐次実行部分の割合を見積もると、VMC 計算では r (12)
VMC =0.023%、
験値を再現している。
09
量 子モンテカルロ法に基づく振 動 状 態 解 析の大 規 模 並 列 計 算
各 振 動 状 態における水 素 結 合プロトン( H*)の振る舞い解 析す
解析で報告されているが、本研究によりD 体・T 体におけるピーク
るた め 構 造 パラメーター δOH* = R O1H* − R O2H* に注 目した 。ここで
の分 裂は、主に架 橋 振 動の基 音 凖 位の寄 与であることが明らかに
R O1H* 、O2H* は図 4( b)で定 義されている2つの OH* 間 距 離であり、
なった。
δOH* = 0 のときH*は酸素原子間の中央に位置することを意味する。
RMC 法から得られた振 動 基 底 状 態と架 橋 振 動の基 音 準 位におけ
るδOH* の一 次 元 分 布を図 5 に示す。振 動 基 底 状 態ではH*は酸 素
原 子 間の中 央に分 布しており、同 様の振る舞いが先 行 研 究におい
ても報告されている [10,12] 。またD 体、T 体でもD*、T * は酸素原子間
の中 央に位 置しているが、その分 布はH 体と比 較して局 在 化して
いる。経路積分分子動力学法を用いたSuzukiらの解析 [12] では、報
告されている中で最も低 温である 50Kにおいて、D 体とT 体に有 意
な差は得られていないが、本 解 析により振 動 基 底 状 態( 0 Kelvin)
においてT 体の分布は、D 体と比較してわずかに局在化することが
わかった。
架橋振動の基音凖位においては、波動関数の節構造を反映した
結 果 、δOH* はダブルピーク構 造を持つ。2つの分 布の内、片 側 一
方に注 目すると、その分 布は原 子 核の質 量が軽いほど非 局 在 化し
ており、かつピーク位 置は |δOH* | が大きい領 域へシフトしている
( 片側の酸素原子へ寄る)。δOH* = 0 はプロトン移動の遷移状態に
対応しているが、基底状態・基音凖位ともに原子核の質量が重い
ほど遷 移 状 態 付 近の存 在 確 率が増 大するという興 味 深い結 果が
得られた。
図 4 H 3 O 2 - の平 衡 構 造(a)と振 動 平 均 構 造(b)
図 5( c)は、振 動 基 底 状 態と架 橋 振 動の基 音 準 位の二 状 態のみ
を考 慮した場 合の 600KにおけるδOH* の一 次 元 分 布である。H 体
におけるδOH* は基底状態よりさらに非局在化したシングルピーク
構造を、D 体・T 体はわずかに分裂したダブルピーク構造を有して
いる。同 様の分 裂がSuzukiらによる 600Kにおける経 路 積 分 法の
10
(a)
振 動 基 底 状 態、
図 5 H 3 O 2 - のδOH* の一 次 元 分 布 。
(b )架 橋 振 動の基 音 準 位、
(c )600K 。
単 位は Bohr 。
参考文献
[1]
B.L. Hammond, W.A. Lester Jr. and P.J. Reynolds, “Monte
Carlo Methods in Ab Initio Quantum Chemistry” ( World
Scientific, 1994).
[2]
S. Baroni and S. Moroni, Phys. Rev. Lett., 82, 4745 (1999).
[3]
D.G. Oblinsky, W.K. Yuen, S.M. Rothstein, J. Mol. Struct.
(THEOCHEM) 961, 219 (2010).
[4]
N. Metropolis, A.W. Rosenbluth, M.N. Rosenbluth, A.H. Teller
[5]
J. M. Bowman, J. Chem. Phys. 68, 608 (1978).
[6]
J.Toulouse, C.J. Umrigar, J. Chem. Phys. 126, 084102 (2007).
and E. Teller, J. Chem. Phys., 21, 1087 (1953).
[7] M. Suzuki, Proc. Japan Acad., 69, 161 (1993).
[8] Huang et al. J. Am. Chem. Soc. 126, 5042 (2004).
-
表 1 H 3 O 2 の零 点 振 動 点エネルギー(ZPE)と
架 橋 振 動の基 本 振 動 数(単 位は cm -1 )
[9] Gene M. Amdahl. Validity of the single processor approach
to achieving large scale computing capabilities. In AFIPS
Conference Proceedings, pp. 483-485 (1967).
結論
5
[10] A. B. McCoy, X. Huang, S. Carter, and J. M. Bowman, J. Chem.
Phys. 123, 064317 (2005)
[11] E.G. Diken, J.M. Headrick, J.R. Roscioli, J.C. Bopp, and M.A.
Johnson, A.B. McCoy J. Phys. Chem. A, 109, 8 (2005).
[12] K.Suzuki, M. Shiga, and M. Tachikawa, J. Chem. Phys. 129,
本稿では、変分モンテカルロ( VMC)法とReptation Monte Carlo
144310 (2008).
( RMC)法という2種類の量子モンテカルロ法、およびその並列化
の実装方法に関する概略を示した。東京工業大学のTSUBAME2.5
スーパーコンピューターシステムを用いたベンチマーク計算(最大
5376 cores)を実行した結果 、Speed upはVMC 法では 4868 倍(並
列化効率 91% )
を、RMC 法では 2307 倍
(並列化効率 43%)
となった。
プログラム全体の並列化率はVMC 法では 99.9981%、RMC 法では
全体の 99.975%である。また大規模並列計算の応用例として、大
気中のエアロゾル形成の前駆体となる負イオン核一水和物
(H3 O2- )
に対する振動状態解析を行い、振動状態解析に対するQMC 法の有
効性を示した。
本 研 究では多 次 元のポテンシャルエネルギー曲 面の算 定に、計
算コストが安 価な解 析 的ポテンシャル関 数を使 用したが、第 一 原
理計算を併用したon-the-fly 法の利用により、今後さらなる並列化
効率の向上が期待される。
謝 辞
本研究における計算は「平成 26 年度秋期 TSUBAMEグランドチャ
レンジ大規模計算制度(カテゴリー B)」の採択により、東京工業
大学学術国際情報センターの大型計算機( TSUBAME2.5)を利用
したものである。本制度を利用させて頂いた東京工業大学学術国
際情報センターの関係各位に深く感謝致します。また本研究の一
部は科学研究費補助金から支援を頂きました。
11
個別要素法による
粉体の大 規模シミュレーション
都 築 怜 理 渡 辺 勢 也 青木 尊之
東 京 工 業 大 学・学 術 国 際 情 報センター
砂や粉の振る舞いは液 体などと似ている場 合もあれば大きく違うときもある 。このような粉 体をシミュレーションするた
めに、粒 子 間の接 触 相 互 作 用をバネと摩 擦のモデルで表 現した個 別 要 素 法が良く使われる 。スプーン1 杯に砂 糖が何 粒
あるかを想 像すれば分かる通り、実 際の粒 子サイズで粉 体をシミュレーションしようとすると 100 万 個を超える粒 子 数が
必 要になる 。粗 視 化モデルのアプローチもあるが限 界があり、スパコンによる大 規 模 計 算で実 際に近い粒 子サイズで粉
体シミュレーションを行う意 義は大きい 。粉 体は空 間 的な広がりが時 間 的に変 化するため、大 規 模 計 算で良く使われる領
域 分 割がそのままでは使えない 。粒 子 分 布に合わせて時々刻々と領 域 分 割を変 更しながら、動 的に計 算 負 荷のバランス
を取ることが重要である。本稿では動的負荷分散をやり難いと言われているGPUスパコンにおいて、大規模粉体シミュレー
ションを行い、いくつかの実 用 計 算とゴルフのバンカ ーショットのような砂 粒 子からゴルフボールへの運 動 伝 達を含む複
雑な粉体計算を行った例を示す。
はじめに
1
GPU による DEM 計算
2
粉体( 粉粒体)はさまざまな場面で現れ、その振る舞いが明らかに
GPUは階層的なメモリ構造と 2,000 を超える演算コア
(CUDAコア)
されていない現 象も多い。工 学 的にもプリンターのトナーや製 薬
を持っている。GPUのアーキテクチャを考 慮した超 細 粒 度・超多
プロセス、化学工学プラントなどにおいて、粉体シミュレーション
スレッドの計 算アルゴリズムと実 装を行うことにより、高い性 能
の需 要は高い。粉 体 計 算は粒 子 計 算の 1 つであり、天 体の重 力 多
を引き出すことができる。GPU のプログラミングは NVIDIA 社が
体 計 算と類 似した印 象を受ける場 合がある。しかし、粉 体の相 互
提供する統合開発環境のCUDAを用いる。
作用は後で述べるように接触による相互作用であるため、1 つの粒
子が相互作用する粒子は高々数 個 程 度であり、メモリ律 速の計 算
である。一方、重力多体計算や分子動力学計算などは相互作用す
る粒子数が非常に多く、浮動小数点演算のコストが支配的である。
粉 体シミュレーションも粒 子 数を増やして行くと(メモリアク
セスを含めた)計 算 負 荷が非 常に高くなり、これまで大 規 模 粉 体
シミュレーションは余り行われてこなかった。近年、スパコンの性
能は飛 躍 的に向 上し、実サイズの粒 子を用いた大 規 模 粉 体シミュ
レーションが可能な性能を有している。しかし、プロセッサはマル
チコア化し、数 千~数 万 計 算ノードから構 成されているため並 列
図 1 個 別 要 素 法の物 理モデル
計 算が必 須の条 件である。粉 体シミュレーションにおける粒 子 間
相 互 作 用は接 触による反 発と摩 擦であるため、粒 子 番 号による並
粉体シミュレーションの計算モデルを図 1 に示す。本研究では、
列 化は現 実 的でなく、領 域 分 割による並 列 化を行うことが必 要で
粉 体 粒 子 同 士が接 触すると反 発 力とダンパー( バネとダッシュ
ある。時間・空間的に粒子分布が変化する粉体シミュレーション
ポット)が作 用する個 別( 離 散 )要 素 法 DEM( Discrete Element
に対し、計算負荷の分散とメモリ分散の目的で動的領域分割を導
Method)を用いている。せん断方向にはバネとダッシュポットに
入する必要がある。GPU(Graphics Processing Unit)は演算性能、
加えて摩 擦 力も発 生する。粒 子 運 動は式( 1)に従い、加えられた
メモリバンド幅や電 力 効 率の点で有 利な反 面、メモリ階 層が深く
力とトルクに対して 2 次精度のルンゲクッタ法かleap-frogなどに
データ移 動のオーバーヘッドが大きい。本 稿では、そのGPUを用
より時間積分される。
いて大 規 模 粉 体シミュレ ーションを実 行するためのアルゴ リズム
の開発と実装を行い、実用問題への適用例を示す。
GPU 計 算では、各 粒 子の持つ速 度や座 標、運 動 量などの従 属 変 数
は粒 子 構 造 体の中のメンバ変 数として GPUボード上の Deviceメ
モリ(CUDAプログラミング上では、グローバル・メモリ)に保持
され、1スレッドが 1 粒子を計算する。
12
DEM のように接 触した粒 子とのみ相 互 作 用する局 所 性の高い
割し、各 分 割 幅 内の粒 子を数え上げる。境 界を移 動すべき距 離が
計 算では、全 粒 子との接 触 判 定を行うことは非 効 率 的である。計
分かると、境 界が移 動したために小 領 域 外にはみ出る粒 子をGPU
算 領 域を仮 想 的に格 子に分 割し、自 身の属する格 子(セル )及び
上でパッキングし、隣接小領域のGPUにホスト計算機を介してデー
隣 接するセルに属する粒 子とのみ相 互 作 用 計 算を行う「セル分 割
タ転 送する。複 数ノードに分 散するGPU 間ではMPIライブラリに
法 」を用いて計 算する。粒 子が属するセルに全ての粒 子 番 号を登
よる通 信が必 要になる。受け取る側の小 領 域はパッキングされた
録する通常のセル分割法ではメモリ不足を引き起こす可能性があ
粒子を小領域の粒子に加え領域の再分割が完了する。
る。図 2 のように各セルでは 1 つの粒 子の番 号のみを登 録し、同
粒子は運動するため、時間積分後に境界を横切り領域外に出た
一セルに属するその他の粒 子は粒 子 番 号を数 珠つなぎに保 持する
粒子の通信や、隣接小領域内の接触する可能性がある粒子のデー
Linked-list を導 入する
[1][2]
。これにより空 間 格 子のメモリ使 用 量
は 静的な空間格子を用いる場合と比較して 8 分の 1 に削減できる。
タ転送も必要になる。GPUではメモリの確保や解放に非常に時間
がかかるため、粒 子データを格 納するメモリはある程 度 静 的に保
持する必 要がある。一 方、このような頻 繁な小 領 域 境 界を横 切る
粒 子 移 動が起こると、使 用するメモリの断 片 化が発 生する。そこ
で図 5 のように定 期 的に粒 子の再 整 列を行い、メモリの断 片 化を
解消する。
図 2 Linked-list を用いた近 傍 粒 子 探 索
動的負荷分散を用いた複数 GPU 計算
3
複数のGPUで粉体計算を行うには、計算領域を小領域に分割し、分
割された各 小 領 域にGPUを割り当てて計 算する。図 3 の左 側のよ
図 4 粒 子の数え上げと境 界 線の変 更
うに均等分割した場合、
小領域内の粒子数に偏りが生じる。そこで、
図 3 右図のように小領域内の粒子数を一定にするために、小領域の
境界を計算途中で移動させるスライスグリッド法を導入する [3] 。
図 3 スライスグリッド法による負 荷 分 散
図 5 Deviceメモリ上の粒 子データの再 整 列
境 界 線の移 動にともない隣 接 小 領 域に移 動する粒 子をGPU 上で
探索するための効率的な手法を提案する。粒子は小領域のどこに
分布しているか不明なので、図 4 のように小領域を微小幅
で分
13
個別要素法による粉体の大 規模シミュレーション
TSUBAME2.5 における
強・弱スケーリング
4
スライスグリッド法による動 的 負 荷 分 散を導 入した DEM の GPU
コードを用いて、TSUBAME 2.5 の GPU
(K20X)
で大規模粉体シミュ
レーションの実 行 性 能を強スケーリングで検 証した。図 6 のスク
リューが粉体中で回転する撹拌計算を約 200 万個、約 1,600 万個、
約 1 億 2,900 万 個の粒 子により計 算する場 合の実 行 性 能の測 定 結
果を図 7 に示す。
縦軸の実行性能は用いた粒子数を計算時間で割ったもので、1 秒
当たり何 個の粒 子を計 算できるかを意 味している。図 7 の× 印で
表された 2 つの測定点が、それぞれ 1 億 2,900 万粒子を用いた場合
の 256GPU 、512GPUに対する実 行 性 能の測 定 結 果である。同 一
図 7 粉 体シミュレーションの強・弱スケーリング
線 上の実 行 性 能の変 化が強スケーリングを示している。1,600 万
個 程度までの粒 子 数であれば、8 ~ 16 倍まではGPU 数の増加に応
じて性 能 向 上が期 待できるが、それ以 上は性 能が飽 和してくるこ
とが分かる。弱スケーリングは 4GPU による 200 万 粒 子の計 算、
32 GPU による1,600 万粒子の計算 、256GPUによる 1 億 2,900 万粒
提案手法の実用問題への適用
子の計 算に対する実 行 性 能を比 較することにより検 証でき、理 想
5
的な直 線と比 較して大きく性 能 低 下していることがわかる。スラ
イスグリッド法の欠 点である分 割された小 割領域の形 状( アスペ
クト比)の悪 化による領 域 間 通 信 量の増 大が原 因となり並 列 化 効
率が低 下したためである。DEM 計算 へ のスライスグリッド法の適
用限界が 256GPU 〜 512GPU 程度であること が 確認できる。
工 業 的、産 業 的に重 要ないくつかの典 型 的な粉 体 現 象に対して、
動 的 負 荷 分 散を用いた複 数 GPU による大 規 模シミュレーション
を行った。実 用 的なDEM 計 算には任 意 形 状の物 体との相 互 作 用
を取り扱う必 要がある。図 8 のようにCADデータから物 体 表 面か
らの符号付距離関数( Level Set 関数)を事前計算しておくことに
より [4] 、そのLevel Set 関数を参照するだけで物体-粒子間の距離
が求まり、粒子-物体間の相互作用を効率的に計算できる。
図 6 64 台の GPU を使い 412 万 個の粒 子を使った
撹拌計算
図 8 Level Set 関 数による物 体 形 状 表 現
433 万 個の粒 子による粉 体の搬 送 計 算を 64 GPUを用いて計 算
した結果をそれぞれ図 9 に、416 万個の粒子による螺旋すべり台の
計算を 32 GPUを用いて計算した結果を図 10 に示す。
ゴルフのバンカーショットはサンドウェッジのスイングによる
砂のかき上げと、かき上げられた砂によるゴルフボールへの運 動
14
伝 達を含む複 雑な問 題である。解 析 手 法である DEM は計 算コス
を 64 台の GPU を用いて行った。サンドウェッジの軌 道は回 転 及
トが高いため、これまでは 10 万個程度の粒子による 2 次元計算に
び二 重 振り子モデルから決 定している。バ ン カーショットに特 徴
とどまっている [5] 。実 際の砂と同 程 度のサイズの粒 子を数 千 万 個
的な砂 上のゴルフボールの「目 玉」の初 期 状 態は、実 際と同じよ
〜 1 億個用いることにより、実現象のスケールでの 3 次元 バ ンカー
うにボールを落とし、DEM 計算で 64,000 ステップかけて生成して
ショット・シミュレーションを実行することができた。
いる。サンドウェッジの先端の最大速度を 5.0 m/s としてスイン
バンカー砂に含まれる粗 砂を想 定し、粒 子 半 径 0.4 mmの粒 子
グを開始した。計算結果を図 11 に示す。
1,670 万 個を用いた大 規 模 バ ンカーショット・シミュレーション
図 9 64 台の GPU を使い 433 万 個の粒 子を使った
搬送計算
図 10 32 台の GPU を使い 416 万 個の粒 子を使った
螺 旋すべり台のシミュレーション算
図 11 1,670 万 粒 子のバンカーショット計 算
15
個別要素法による粉体の大 規模シミュレーション
非球形粒子を用いた DEM 計算
6
複数の粒子を剛体連結させた非球形の粒子モデルを用いることで、
球形粒子よりも粒子間の摩擦を正確に表現でき、より現実の現象
に近い粉 体シミュレーションが可 能となる [6] 。1 つの非 球 形 粒 子
を複数の粒子を用いて表現するため球形粒子を用いたDEMに比べ
て多くの粒 子が必 要となり計 算コストが増 大するため、GPU 計 算
の必要性が高まる。1 台のGPUで数十万~数百万個の非球形粒子
( a ) 球 形 粒 子による計 算
による粉体シミュレーションを実行することができた。
図 12 テトラポッド 型 非 球 形 粒 子
実 問 題への適 用 例として、長 靴の足 跡のシミュレーションを実
( b ) テトラポッド型の非 球 形 粒 子による計 算
行した。図 12 のように、4 つの粒子をテトラポッド型に連結させた
非球形粒子を約 40 万個用いた。図 13 に( a)球形粒子、
( b)テト
ラポッド型の非球形粒子を用いた場合のシミュレーション結果を
示す。非球形粒子を用いた場合は粒子間のインターロックの影響
が表われ、靴底の溝が確認できるほど明確な足跡が砂に残った。非
球形粒子で計算することで粒子間の摩擦を正確に表現できること
を確認した。
16
図 13 長 靴の足 跡のシミュレーション
まとめ
7
Miyasaka, Katsuaki Ohdoi, Investigation of elemental shape
for 3 D DEM modeling of interaction between soil and a
narrow cutting tool, Journal of Terramechanics, Volume 50,
Issue 4, August 2013, Pages 265-276,ISSN0022-4898.
DEM 計 算に動 的 負 荷 分 散を導 入することにより、大 規 模 粉 体シ
ミュレーションをGPUスパコンで実 行することができた。スライ
スグリッド法によるGPU 間の動 的 領 域 分 割と近 傍 粒 子 探 索にお
けるLinked-list 法の導入により、効率的に粉体計算を実行する手
法を提 案した。複 雑 形 状 物 体を含む問 題や非 球 形 粒 子のDEM 計
算も可 能になり、今 後は流 体と連 成させるなどより実 用 問 題への
展開が期待できる。
謝辞
本 研 究 の 一 部 は、科 学 研 究 費 補 助 金・ 基 盤 研 究( S)課 題 番 号
26220002「ものづくりHPC アプリケーションのエクサスケールへ
の進 化」、科 学 技 術 振 興 機 構 CREST「ポストペタスケール高 性 能
計算に資するシステムソフトウェア技術の創出」、学際大規模情報
基盤共同利用・共同研究拠点、および革新的ハイパフォーマンス・
コンピューティング・インフラから支 援を頂いた。記して謝 意を
表す。
参考文献
[1] G. S. Grest, B. D¨unweg, and K. Kremer, “Vectorized link cell
Fortran code for molecular dynamics simulations for a large
number of particles,” Computer Physics Communications,
vol. 55, pp. 269–285, Oct. 1989.
[2] Gomez-Gesteira, M., Crespo, A., Rogers, B., Dalrymple,
R.,Dominguez, J. and Barreiro, A.: fSPHysicsg development
of a free-surface fluid solver Part 2 : Efficiency and test
cases,Computers and Geosciences, Vol. 48, No. 0, pp. 300 –
307 (2012).
[3] S, Tsuzuki, and T, Aoki: Large-scale granular simulations
using Dynamic load balance on a GPU supercomputer, in
Poster at the 26th IEEE/ACM International Conference on
High Performance Computing, Networking, Storage and
Analysis (SC) 2014, New Orleans, US-LA, USA (2014).
[4] J. A. Bærentzen and H. Aanæs, “Computing discrete signed
distance fields from triangle meshes,” Informatics and
Mathematical Modeling, Technical University of Denmark,
DTU, Richard Petersons Plads, Building 321, DK-2800 Kgs.
Lyngby, Tech. Rep., 2002.
[5] 堀井 宏祐 , 小泉 孝之 , 辻内 仲好 , 三木 光範 , 日高 重助 , 折戸
啓太 ,: " 並列粒子要素法によるバンカーショット解析 ", 情報
処 理 学 会 論 文 誌 , 数 理モデル化と応 用 , Vol. 44, No. 14, pp.
91-99 (2003)
[6] I k u y a O n o , H i r o s h i N a k a s h i m a , H i r o s h i S h i m i z u , J u r o
17
● TSUBAME e-Science Journal vol.13
2015 年 3 月 10 日 東京工業大学 学術国際情報センター発行 ©
ISSN 2185-6028
デザイン・レイアウト:キックアンドパンチ
編集: TSUBAME e-Science Journal 編集室
青木尊之 渡邊寿雄 佐々木淳 仲川愛理
住所: 〒 152-8550 東京都目黒区大岡山 2-12-1-E2-6
電話: 03-5734-2085 FAX:03-5734-3198
E-mail:tsubame_j@sim.gsic.titech.ac.jp
URL: http://www.gsic.titech.ac.jp/
18
vol.
TSUBAME 共同利用サービ ス
『みんなのスパコン』TSUBAME 共同利用サービスは、
ピーク性能 5.7PFlops 、18000CPUコア、4300GPU 搭載
世界トップクラスの東工大のスパコンTSUBAME2.5 を
東工大以外の皆さまにご利用いただくための枠 組みです。
課題公募する利用区分とカテゴリ
共同利用サービスには、
「学術利用」
「産業利用」
、
「社会貢献利用」
、
の3つの利用区分があり、
さらに「成 果公開」と「成 果非公開」のカテゴリがあります。
ご利用をご検 討の際には、下記までお問い合わせください。
他大学や公的研究機関の研究者の 学術利用[有償利用]
TSUBAME
民間企業の方の 産業利用[有償・無償利用]
共同利用とは…
[有償利用]
その他の組織による社会的貢献のための 社会貢献利用
共同利用にて提 供する計算資源
共同 利 用サービスの利 用区 分・カテゴリ別の利 用課 金 表を下 記に示します。TSUBAME
における計算 機 資 源の割 振りは口 数を単 位としており、1 口は標 準 1ノード
(12 CPUコア,
3GPU, 55.82GBメモリ搭載)の 3000 時間分
(≒約 4 ヵ月)相当の計算 機資 源です。
1000 CPUコアを1.5日利用する使い方や、100 GPUを3.75日利用する使い方も可能です。
利用区分
利用者
制度や利用規定等
カテゴリ
利用課金(税抜)※
学術利用
他大学または
研究機関等
共同利用の
利用規定に基づく
成果公開
1口:120,000 円
産業利用
民間企業を中心
としたグループ
「先端研究基盤共用・
プラットフォーム形成
事業」に基づく
非営利団体、
公共団体等
共同利用の
利用規定に基づく
社会貢献利用
成果公開
トライアルユース(無償利用)
1口:120,000 円
成果非公開
1口:480,000 円
成果公開
1口:120,000 円
成果非公開
1口:480,000 円
※ 平成 27 年度の利用課金です。最新の利用課金については、下記 URL をご参照ください。
http://www.gsic.titech.ac.jp/kyodou/kakin
産業利用トライアルユース制度(先端研究基盤共用・プラットフォーム形成事業)
東 工 大のスパコンTSUBAMEを、より多くの企 業の皆さまにご利 用いただくため、初めて
TSUBAMEをご利 用いただく際に、無 償にてご試 用いただける制 度です。
(文部 科 学省 先 端 研 究 基 盤 共 用・プラットフォーム形成事業による助成)
詳しくは、下 記までお問い合わせください。
お問い合わせ
●東京工業大学 学術国際情報センター 共同利用推進室
●e-mail kyoyo@gsic.titech.ac.jp Tel. 03-5734-2085 Fax. 03-5734-3198
詳しくは http://www.gsic.titech.ac.jp/tsubame/をご覧ください。
13