CLC Genomics Workbench 7.0新機能と改良版マッピングプラグインの

CLC Genomics Workbench 7.0新機能と
改良版マッピングプラグインのご紹介
株式会社CLCバイオジャパン
シニアフィールドバイオインフォマティクスサイエンティスト
宮本真理 Ph.D
mmiyamoto@clcbio.co.jp
1
アジェンダ
• Genomics Workbench 概要
– 活用例
• Genomics Workbench 7.0 アップデート内容
• Mapping プラグインベータ版
• Microbial Genome Finishing Module によるPacBio対応
2
CLC Genomics Workbench
•
•
•
•
•
•
3
活用例
病気の原因や関連遺伝子探索
•
自閉症の関連遺伝子を調べるため、NG
Sがスクリーニング的に利用され、
Genomics Workbench はマッピング、変異
検出の1つの方法として利用された(3種
類の異なる方法で2/3に見られる変異を
その後の解析対象としている)。
•
候補となった遺伝子から2413個を使った
カスタムマイクロアレイが作成され、Case
=3000人、Control=6000人のケース
コントロールスタディが行われた
•
11遺伝子がOdd ratio 1.5 で自閉症スペク
トラムの子供に見つかった。
Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F,
Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in
high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5.
4
活用例
Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F,
Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in
high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5.
5
活用例
“Nontheless, variant calling using the three methods shown in Table 1
identified over one million sequence variants called by at least two of
the three methods. Analysis using cSNP classifier resulted in the
detection of 2,825 putative functional candidate SNPs, including 210
nonsense variants, 1,614 non- conservative missense variants, 35
frameshift variants and 966 splice site variants.”
3つの方法を使っても100万以上の変異は2/3の方
法で変異とされていた。cSNPの分類により、2825の
新規機能関連SNPsを見つけ、その中には、210のナ
ンセンス変異、1614の非保存ミスセンス変異、35の
フレームシフト変異と966のスプライスサイトでの変
異があった。
Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F,
Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in
high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5.
6
Matsunami N, Hensel CH, Baird L, Stevens J, Otterud B, Leppert T, Varvil T, Hadley D, Glessner JT, Pellegrino R, Kim C, Thomas K, Wang F,
Otieno FG, Ho K, Christensen GB, Li D, Prekeris R, Lambert CG, Hakonarson H, Leppert MF: Identification of rare DNA sequence variants in
high-risk autism families and their prevalence in a large case/control population. Mol Autism 2014, 5:5.
7
活用例
ゲノム未知の生物に対するトランスクリ
プトーム解析
•
五葉松のサビキンに対する感受性を調
べるため、De novo トランスクリプトーム。
De novo アセンブリにてトランスクリプトを
作成し、アノテーション。
•
未感染、感染し感受性を示したもの、感
染し耐性を示したものについて発現差解
析。Genomics Workbench はDe Novo ア
センブリ、RNA-seq, 発現差解析で利用
されている。
•
発現差があったものについてさらに機能
解析を行っている。
Liu J-J, Sturrock RN, Benton R: Transcriptome analysis of Pinus monticola primary needles by RNA-seq provides novel insight into
host resistance to Cronartium ribicola. BMC Genomics 2013, 14:884.
8
活用例
Liu J-J, Sturrock RN, Benton R: Transcriptome analysis of Pinus monticola primary needles by RNA-seq provides novel insight into
host resistance to Cronartium ribicola. BMC Genomics 2013, 14:884.
9
活用例
Liu J-J, Sturrock RN, Benton R: Transcriptome analysis of Pinus monticola primary needles by RNA-seq provides novel insight into
host resistance to Cronartium ribicola. BMC Genomics 2013, 14:884.
10
新バージョン
11
アップデート
RNA-seq
• ビューの大幅な改良
• 高速マッピング
• 遺伝子間へのマッピングも可能に
• EdgeRの搭載
解析パイプライン
• ワークフローツールの更なる改良
系統樹解析
• 系統樹描画の機能拡張
12
RNA-seq ビュー改良
13
RNA-seq ビュー改良
発現差+変異も見やすい
14
発現解析: EdgeR搭載
• EdgeRは論文でもよく紹介されるカウントデータに対する発現差解析で
す。
• RPKMのノーマライズ法は、発現差解析においては、十分ではないとい
う指摘がありました。
• 7.0より、EdgeRに搭載されている内容と同じく、ノーマライズにはTMM
を使い、発現差解析はExact Test を採用した発現差解析を行えるよう
になりました。
15
コンセンサス配列
• コンセンサス配列の作成の際、参照配列のアノテーションを
付加させることが可能に。
16
系統樹ツール
Workflow ツール改良
より使いやすくなったワークフローツール
Minimap
Grid設定
ビューモードの切り替え
や、色の設定
18
DEMO
19
プラグインアップデート
新マッピングプラグイン(ベータ版)
20
マッピングの詳細
インデックスファイル作成
スコア計算
フィルタリング
21
マッピングの詳細
• インデックスファイルの作成
– ?インデックス
Genome
Read
どこが似てるかな・・・?
Genomeの端から端まで順番に調べていては、膨大な時間がかかる
22
マッピングの詳細
• Genomeにインデックスと言う辞書の索引のようなものを作成し、検索効
率を上げる。
Genome
A
Index
AACGT…
AAGGT…
AATCT….
C
CAATC…
CAGGC…
CGTTC….
G
Read
GAATC…
GCACT…
GCCGT… (※これはイメージで実際のSuffix array ではありません。)
どこが似てるかな・・・?
23
• Suffix Array
T[i]
A
G
T
T
C
G
$
Suffix
i
Suffix
i
AGTTCG$
1
$
7
GTTCG$
2
AGTTCG$
1
TTCG$
3
CG$
5
TCG$
4
G$
6
CG$
5
GTTCG$
2
G$
6
TCG$
4
$
7
TTCG$
3
Suffix Array, SA
24
Sort
i
1
2
3
4
5
6
7
SA[i]
7
1
5
6
2
4
3
i
1
2
3
4
5
6
7
T[i]
A
G
T
T
C
G
$
i
1
2
3
4
5
6
7
SA[i] 7
1
5
6
2
4
3
1
A
C
G
G
T
T
2
G
G
$
T
C
T
3
T
$
T
G
C
4
T
C
$
G
5
C
G
6
G
$
7
$
$
$
もとの配列S と、Suffix Array, SAを使って高速に検索できる。
TGCAGACATTAGGAATTAAAAATTGAATCCATTGGACATGATGGTACCATGCTACCGAAACTTAAAACTCACTTTCAGAATTCCATCAGTGAT
ATATGGGAGTAGTAATGTTGTCTAGGAATCATGAGTAATCACTACCCCAGTGGATACACTAAATAACCTGTAGCTGATCAATGTTTCTTGCCA
GCCTTGACTTGCTTTCAAGTTGGTTTTTATCAACATTAACATCCTTCAACAGGAGGTCAACCCCAGAGGGAGATCCAAGCCACTTTCTGCTAG
CTTCACTTGTGATGAACTTTTTACCATGTGATCATTTATTCT………………………………………………………………….GAAGGATGTATAAATGCTGA
GGGCAGATAAAAACAACAAAAACCTTATTCCCCCTTTTCTAACCAGAATCCTTTTTTTCTTACACAACTCTCATATGAATCATTTGGAGAGAAT
TTAGAAATAAAGATTAAAATCACTTTTCAATGTGTCCCTTTTACTGCCTGTAACTTCAACTAGCAGGTTTGAAGTTAGAGCCCTGTAATTTCTG
TGGAGATTGACAAAGGCTACTTACCTTAATCTCCTGCTATCTTATGATGGGGTGCTGAATAGTATCTCACCTAAAAGGAGCTCAGGCAGGTC
AGCAAAAATAGGAAAGTGTCATAGACTTAAGATAGGTAAATGATTTGTTGTTGGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTTG
TTTTTCGAGACA$
SA = {3,009,821,212 3,009,821,210, ……………………………………………………………………………………………………………………………………..}
GGATGTATAAA
TGCAGACATTAGGAATTAAAAATTGAATCCATTGGACATGATGGTACCATGCTACCGAAACTTAAAACTCACTTTCAGAATTCCATCAGTGAT
ATATGGGAGTAGTAATGTTGTCTAGGAATCATGAGTAATCACTACCCCAGTGGATACACTAAATAACCTGTAGCTGATCAATGTTTCTTGCCA
GCCTTGACTTGCTTTCAAGTTGGTTTTTATCAACATTAACATCCTTCAACAGGAGGTCAACCCCAGAGGGAGATCCAAGCCACTTTCTGCTAG
CTTCACTTGTGATGAACTTTTTACCATGTGATCATTTATTCT………………………………………………………………….GAAGGATGTATAAATGCTGA
GGGCAGATAAAAACAACAAAAACCTTATTCCCCCTTTTCTAACCAGAATCCTTTTTTTCTTACACAACTCTCATATGAATCATTTGGAGAGAAT
TTAGAAATAAAGATTAAAATCACTTTTCAATGTGTCCCTTTTACTGCCTGTAACTTCAACTAGCAGGTTTGAAGTTAGAGCCCTGTAATTTCTG
TGGAGATTGACAAAGGCTACTTACCTTAATCTCCTGCTATCTTATGATGGGGTGCTGAATAGTATCTCACCTAAAAGGAGCTCAGGCAGGTC
AGCAAAAATAGGAAAGTGTCATAGACTTAAGATAGGTAAATGATTTGTTGTTGGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTGTTTTTG
TTTTTCGAGACA$
26
マッピングの詳細
• インデックスから、似ている場所の候補をいくつか選び、ミスマッチやGap
を考慮してアライメントスコアを計算。
まとめると
Genome
Index
あそことあそこだよ
Read
27
マッピングの詳細:問題点
• 実はSuffix Array は非常にメモリ空間を使う。おおよそゲノムサイズx5倍
+αがこれまでは最低必要でした(ヒトゲノム 3Gb の場合、24Gbのメモリ)
Genome
Index
・・・・out of memory・・・
28
新プラグイン
• Suffix Array をBW変換という方法を使って圧縮しやすい形へ変換して圧
縮。小さなメモリでも大きなゲノムを扱えるように工夫。ヒトゲノムは8GB
程度のメモリを持つコンピュータでマッピング可能に。
Genome
Index
ヒトゲノムなら8GBのコ
ンピュータでOKだよ。
29
BW変換(Burrow Wheeler Transform)
AGTTCG$
$AGTTCG
G
$
G$
GTTCG$A
AGTTCG$
$
A
$A
TTCG$AG
CG$AGTT
T
C
TC
TCG$AGT
G$AGTTC
C
G
CG
CG$AGTT
GTTCG$A
A
G$AGTTC
TCG$AGT
T
T
TT
$AGTTCG
TTCG$AG
G
T
GT
Sort
Sort
G
連結
これがBW変換後の配列
B=[“G$TCATG”]
BW変換後は圧縮しやすい形になり、かつ復元できるのが特徴
AG
これは元の文字列の連
続する2文字の組み合
わせ。これから元の文
字列が復元できる。
30
ベンチマーク:精度
• ベンチマークのIlluminaデータの中から100,000 リードを抽出。
• マッピングはSingle endモードで実施。
• アライメントスコアをMatch = +1, Mismatch = -2, Gap/deletion = -3 として
計算し、アライメントスコア/リードの長さ x 100 としてスコア化
• 精度の比較として、Smith-Waterman アルゴリズムの結果と、それぞれの
アルゴリズムを比較。
31
ベンチマーク:精度
32
補足
• プラグインの正式リリースは夏の予定。それまでにスピード・精度を他ア
ルゴリズムと比較したホワイトペーパーをリリース予定。
• 現行バージョンのホワイトペーパーは以下よりダウンロード可能。
• ベータ版のアルゴリズムは、Genomics Workbench 7.0 のプラグインとし
てすでに利用可能。
33
プラグインアップデート
Microbial Genome Finishing Module
34
Microbial Genome Finishing Module 概要
• Create Primers:プライマー設計のた
めのツール
• Extend Contigs:コンティグにリードを
マッピングし、その結果からコンティグ
を伸長させる。
• Find Sequence:目的の配列を検索す
るツール。
• Join Contigs:コンティグ同士の連結
• Reassemble Regions:コンティグについ
て指定した領域を再アセンブリする。
• Remove Extension of Contigs:Extend
Contigs にて伸長した部分を削除する。
• Sample Reads:リードが多すぎるような
場合に指定した量を取り出すツール
35
PacBio対応
• Microbial Genome Finishing Module
• エラーコレクション済みのPacBioリードをScaffoldように利用可能
36
まとめ
• Genomics Workbench 7.0までは変異解析のツールを充実させることに開
発の重点が置かれていましたが、今後は変異解析やChIP-seqなどの開
発に重点を置き、さらに使いやすく有用な製品開発を行います。
• 解析のスピードと精度向上のためのアルゴリズム改良も引き続き行って
いきます。
• お客さまからのフィードバックもお待ちしております。
37
ご清聴ありがとうございました。
38