Rでトランスクリプトーム解析 - アグリバイオインフォマティクス教育研究

Rでトランスクリプトーム解析
東京大学大学院農学生命科学研究科
アグリバイオインフォマティクス教育研究ユニット
門田 幸二(かどた こうじ)
http://www.iu.a.u-tokyo.ac.jp/~kadota/
kadota@iu.a.u-tokyo.ac.jp
Mar 7 2013
1
自己紹介

1995年3月


1997年3月


放医研・先端遺伝子発現研究センター 研究員
2005/2/16~

Mar 7 2013
産総研・生命情報科学研究センター(CBRC) 産総研特別研究員
2003/11/1~


東京大学・大学院農学生命科学研究科・応用生命工学専攻 博士課程修了
学位論文:「cDNAマイクロアレイを用いた遺伝子発現解析手法の開発」
(指導教官:清水謙多郎教授)
2002/4/1~


東京農工大学・大学院工学研究科・物質生物工学専攻 修士課程修了
2002年3月



東京農工大学・工学部・物質生物工学科 卒業
1999年3月


高知工業高等専門学校・工業化学科 卒業
東京大学・大学院農学生命科学研究科
特任助手→…
2
http://www.iu.a.u-tokyo.ac.jp/~kadota/r_seq.html
参考URL
自前PCでやる場合はここを参考にして必要な
パッケージを予めインストールしておかねば
なりません。(数時間程度かかります)
Mar 7 2013
3
トランスクリプトームとは
ある特定の状態の組織や細胞中に存在する全RNA(
転写物、 transcripts)の総体
 様々なトランスクリプトーム解析技術

 マイクロアレイ

cDNAマイクロアレイ、Affymetrix GeneChip、タイリングアレイなど
 配列決定に基づく方法

EST、SAGEなど、次世代シーケンサー (NGS)
 電気泳動に基づく方法

Differential Display、AFLPなど
調べたい組織でどの遺伝子がどの程度発現しているのかを一度に観察
Mar 7 2013
4
トランスクリプトームとは

ある状態のあるサンプル(例:目)のあるゲノムの領域
遺伝子1
遺伝子2
遺伝子3
ヒト
遺伝子4
遺伝子全体(ゲノム)
・どの染色体上のどの領域にどの遺伝子が
あるかは調べる個体(例:ヒト)が同じなら不
変(目だろうが心臓だろうが…)
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
転写物全体(トランスクリプトーム)
Mar 7 2013
・遺伝子1は沢山転写されている(発現している)
・遺伝子4はごくわずかしか転写されてない
・…
5
トランスクリプトームとは
光刺激

ある状態のあるサンプル(例:目)のあるゲノムの領域
遺伝子1
遺伝子2
遺伝子3
ヒト
遺伝子4
遺伝子全体(ゲノム)
・どの染色体上のどの領域にどの遺伝子が
あるかは調べる個体(例:ヒト)が同じなら不
変(目だろうが心臓だろうが…)
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
AAAAAAA…
転写物全体(トランスクリプトーム)
・遺伝子2は光刺激に応答して発現亢進
・遺伝子4も光刺激に応答して発現亢進
Mar 7 2013
6
トランスクリプトーム情報を得る手段

光刺激前(T1)の目のトランスクリプトーム
遺伝子1

遺伝子2
遺伝子3
遺伝子4
これがいわゆる
「遺伝子発現行列」
光刺激後(T2)の目のトランスクリプトーム
遺伝子1
遺伝子2
遺伝子3
遺伝子4
•
•
•
Mar 7 2013
マイクロアレイ
電気泳動に基づく方法
配列決定に基づく方法
7
トランスクリプトーム取得(マイクロアレイ)

よく研究されている生き物は多数の遺伝子
(の配列情報)がわかっている
遺伝子1
遺伝子2
遺伝子3
光刺激前(T1)の目の
トランスクリプトーム
遺伝子4
蛍光標識
ハイブリダイゼーション
(二本鎖形成)
わかっている遺伝子(の配列の
相補鎖)を搭載した”チップ”
・メーカーによって搭載されている遺伝子の
種類が異なる
→搭載されていない遺伝子(未知遺伝子含
む、例:遺伝子4)の発現情報は測定不可…
Mar 7 2013
8
トランスクリプトーム取得(マイクロアレイ)

光刺激前(T1)の目のトランスクリプトーム
光刺激後(T2)の目の
トランスクリプトーム
蛍光標識
ハイブリダイゼーション
(二本鎖形成)
専用の検出器で各
遺伝子に対応する
領域の蛍光シグナ
ル強度を測定
Mar 7 2013
ハイブリダイゼーション
と
シグナル検出
9
トランスクリプトーム取得(NGS)

次世代シーケンサー(Illumina社の場合)
光刺激前(T1)の目のトランスクリプトーム
配列決定
・ペアードエンド法
断片配列の両末端が数百塩基以内
の対の二種類の配列が得られる
数百塩基程度
に断片化
約50-250塩基
・シングルエンド法
シングルエンド法
の場合
二種類のアダプター
配列を両末端に付加
アダプター1
Mar 7 2013
アダプター2
数百塩基程度
10
FASTQ形式(とFASTA形式)

FASTA形式


「“>”ではじまる一行のdescription行」と「配列情報」からなる形式
NGSのread長は短いので、実質的に一つのリードを二行で表現
>SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

FASTQ形式




一行目:「“@”ではじまる一行のdescription行」
二行目:「配列情報」
三行目:「”+”からはじまる一行(のdescription行)」
四行目:「クオリティ情報」
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
http://en.wikipedia.org/wiki/FASTQ_format
Mar 7 2013
11
データ解析のスタート地点

NGSから得られたFASTQ形式ファイル
データ取
得完了!
A1.fq
A2.fq
B1.fq
B2.fq
なんじゃこの
変な記号は!
何をどう
すれば...
Mar 7 2013
12
様々なMotivation
~の原因遺伝子(ガン関連遺伝子とか)を同定したい
 FASTQ以降の一通りの解析ができるようになりたい
 (Windowsの)Rでできることとできないこと
 モデル生物と非モデル生物の解析戦略の違い
 倍率変化で解析 vs. 分布を使って解析
 いろんなRパッケージがあるけれど…

RNA-seqで二つのサンプルを比較し、発現変動
遺伝子同定までを行うまでの流れを一通り紹介
Mar 7 2013
A群
腎臓
正常組織
wildtype
B群
肝臓
腫瘍組織
mutant
13
比較トランスクリプトーム解析の流れ
複数のFASTQファイル
A1.fq, A2.fq, B1.fq, B2.fq
Linuxマシン
リファレンス配列の作成
複数サンプルの混合アセンブルにより、RefSeqのよう
な転写物配列集合(multi-fastaファイル)を得るイメージ
マッピング
どの転写物にどれだけの数のリードがマップされた
かという、いわゆる「遺伝子発現行列」を得るイメージ
データ解析
発現変動遺伝子のリストアップや、作図など
すべてが(Windowsの)Rで完結するというわけではありません…
Mar 7 2013
14
比較トランスクリプトーム解析の流れ
複数のFASTQファイル
クオリティチェック
Linuxマシン
リファレンス配列の作成
アセンブル結果(multi-fasta)
ファイルから平均長やトータルの
長さなどの基本情報を抽出
マッピング
マッピング結果(BED形式)ファイルを入力として、
転写物ごとのマップされたリード数をカウント
データ解析
発現変動遺伝子のリストアップや、作図など
大規模計算部分以外は一通りできます
Mar 7 2013
15
Linuxマシン使用部分の解決策

自前で大容量メモリ計算サーバ(Linux)を購入し、必要なソ
フトのインストールからスタート
特徴:難易度は高いが思い通りの解析が可能

Linuxサーバをもつバイオインフォ系の人にお願いする
特徴:気軽に頼める知り合いがいればいいが、その人次第

DDBJ Read Annotation Pipelineを利用
特徴:一番お手軽な選択肢だが、サポートしているプログラムのみ
データ登録が前提?!だが、手取り足取り丁寧に教えてくれるので個
人的にはこちらを推奨
Mar 7 2013
16
比較トランスクリプトーム解析の流れ
Mar 7 2013
複数のFASTQファイル
クオリティチェック
リファレンス配列の作成
アセンブル結果(multi-fasta)
ファイルから平均長やトータルの
長さなどの基本情報を抽出
マッピング
マッピング結果(BED形式)ファイルを入力として、
転写物ごとのマップされたリード数をカウント
データ解析
発現変動遺伝子のリストアップや、作図など
17
様々なde novoアセンブリプログラム

de novo genome assembly用プログラム





Velvet (Zerbino and Birney, Genome Res., 18: 821-829, 2008)
ABySS (Simpson et al., Genome Res., 19: 1117-1123, 2009)
EULER-SR (Chaisson et al., Genome Res., 19: 336-46, 2009)
Platanus (unpublished)
de novo transcriptome assembly用プログラム(特にIllumina)





Multiple-k (Surget-Groba and Montoya-Burgos, Genome Res., 20: 1432-1440,
2010)
Trans-ABySS (Robertson et al., Nat. Methods, 7: 909-912, 2010)
Rnnotator (Martin et al., BMC Genomics, 11: 663, 2010)
Trinity (Grabherr et al., Nat. Biotechnol., 29: 644-652, 2011)
Oases (Schulz et al., Bioinformatics, 28: 1086-1092, 2012)
Mar 7 2013
18
Martin and Wang, Nature Reviews Genet., 12: 671-682, 2011
ゲノム用とトランスクリプトーム用の違い1

Sequencing depth情報の利用法

ゲノムの場合




トランスクリプトーム(RNA-seq)の場合


Mar 7 2013
(例えば)配列長の10倍読んだデータなら、平均的にゲノムのどの領域も10回程度読まれてい
ると仮定される(10X coverage)
k-mer出現頻度分布に基づくエラー補正が原理的に可能(実際によく用いられる)
多くのアセンブラはsequencing depth情報をリピート配列の認識に利用
転写物ごとに大きく異なる(低発現転写物はlow coverage, 高発現転写物はhigh coverage)
アセンブル前の段階でどのk-merがどの転写物由来かはわからないので、k-mer出現頻度の
外れ値としてartifactsを除去する戦略は(低発現転写物がターゲットの場合には)不可能。ただ
し、low coverageなものはたとえ除去していなくてもアセンブルされにくい。。。
19
Martin and Wang, Nature Reviews Genet., 12: 671-682, 2011
ゲノム用とトランスクリプトーム用の違い2

ストランド情報

ゲノムの場合


トランスクリプトーム(RNA-seq)の場合


+鎖と-鎖の両方がsequenceされるため、heterozygosity(対立遺伝子の塩基配列が異なる)が
ある場合にアセンブルがうまくいかない
昔は(Illuminaの場合)strand specificityはなかったが、最近のIlluminaは「ストランド(方向性)
」の情報を利用可能
アイソフォーム(isoforms or transcript variants)の存在


Mar 7 2013
ゲノムの場合は気にする必要はない。
ある遺伝子領域(ORF)から全ての可能な転写物(transcripts)をRNA-seqデー
タのみから再構築するのは困難
20
比較トランスクリプトーム解析の流れ
複数のFASTQファイル
クオリティチェック
リファレンス配列の作成
アセンブル結果(multi-fasta)
ファイルから平均長やトータルの
長さなどの基本情報を抽出
マッピング
マッピング結果(BED形式)ファイルを入力として、
転写物ごとのマップされたリード数をカウント
データ解析
発現変動遺伝子のリストアップや、作図など
大規模計算部分以外は一通りできます
Mar 7 2013
21
multi-fastaファイルからの各種情報抽出
multi-fastaって何?
Mar 7 2013
22
multi-fastaファイルからの各種情報抽出
Mar 7 2013
Rでmulti-fastaファイルを読み込んで自在に解析できます
23
Rの起動
デスクトップにある「hoge」フォルダ中のファイルを解析
Mar 7 2013
24
作業ディレクトリの変更
①
②
③
④
⑥
Mar 7 2013
⑤
25
「getwd()」と打ち込んで確認
Mar 7 2013
26
コピー&ペースト
①
②
①一連のコマンド群をコピーして
②R Console画面上でペースト
「hoge」フォルダにhoge1.txtが作成されているはず
Mar 7 2013
27
結果ファイルを眺めて動作確認
「N50」って何?
Mar 7 2013
28
N50

アセンブルがどれだけうまくいっているか
を表す指標の一つ

長いコンティグから足していってTotal_length
の50%に達したときのコンティグの長さ
contig_2 (103 bp)
contig_3 (65 bp)
contig_4 (49 bp)
contig_1 (24 bp)
Total_length / 2 (120.5 bp)
Total_length (241 bp)
averageだと外れ値の影響を受けやすく、medianだと短
いコンティグが多くを占める場合に不都合…らしい。
Mar 7 2013
29
multi-fastaファイルからの各種情報抽出
width関数を使えば配列長
情報を取り出せるようだ
Mar 7 2013
30
multi-fastaファイルからの各種情報抽出
50 bp以上のコンティグからなる
サブセットの抽出ができそうだ!
Mar 7 2013
31
情報抽出手順(の一部)
指定した配列長以上のものを抽出できます
Mar 7 2013
32
情報抽出手順(の一部)
入力ファイル:sample1.fasta
>kadota
AGTGACGGTCTT
出力ファイル:tmp1.fasta
>kadota
TGACGGT
Mar 7 2013
33
情報抽出手順(の一部)
入力ファイル:sample1.fasta
>kadota
AGTGACGGTCTT
出力ファイル:tmp1.fasta
>kadota
TGACGGT
subseq関数は「塩基配列, start, end」
という形式で使うようだ
Mar 7 2013
34
関数の使用法について
…
・「?関数名」で使用法を記したウェブページが開く
・ページの下のほうに、(大抵の場合)使用例が掲載されている
・使用法既知の関数のマニュアルをいくつか読んで、慣れておく
Mar 7 2013
35
入力ファイル:sample1.fasta
>kadota
AGTGACGGTCTT
出力ファイル:tmp1.fasta
>kadota
TGACGGT
マニュアルの使用例をいくつか試して、ステップアップ
Mar 7 2013
36
list_sub2.txt
出力ファイル:tmp4.fasta
>contig_4
CGTGCTGATT
>contig_2
CTGCCT
Mar 7 2013
37
配列ごとのGC含量を計算したいとき
Mar 7 2013
38
比較トランスクリプトーム解析の流れ
Mar 7 2013
複数のFASTQファイル
クオリティチェック
リファレンス配列の作成
アセンブル結果(multi-fasta)
ファイルから平均長やトータルの
長さなどの基本情報を抽出
マッピング
マッピング結果(BED形式)ファイルを入力として、
転写物ごとのマップされたリード数をカウント
データ解析
発現変動遺伝子のリストアップや、作図など
39
マッピングの基本的なイメージ

基本的なマッピングプログラム(basic aligner)を用いた場合
リファレンス配列:ゲノム
T1サンプルの
RNA-Seqデータ
mapping
遺伝子1
遺伝子2
count
遺伝子3
遺伝子4
リファレンス配列:トランスクリプトーム
遺伝子1
遺伝子2
遺伝子3
count
遺伝子4
ゲノム配列へのマッピングの場合、複数のエクソンにまたが
るリード(spliced reads)はマップされないので…
Mar 7 2013
40
対策(リードが短かったころ;<50bp)

既知のsplice junction周辺配列を予め組み込んだ
リファレンスゲノム配列側にマッピング
リファレンスゲノム配列への組み込み後のイメージ
遺伝子1
>chr1
GGGGTTCAAAGCAGTATCGATCAAATAGTA
>chr2
GTTCAAAGCAGTATCGATCAAATAGTAAAT
…
>遺伝子1の「Exon1のend-20bp」から「exon2のstart+20bp」
ACGATGCAGCCTTAACGATGGTCCACAATT…
>遺伝子1の「Exon2のend-20bp」から「exon3のstart+20bp
(少なくとも)既知のexon間をまたぐリードのマッピングは可能
Mar 7 2013
41
RNA-MATE (Cloonan et al., Bioinformatics, 25: 2615-2616, 2009)
対策(一リード>75bp程度の現在)

再帰的にマッピングする戦略(recursive mapping strategy)
 (通常のマッピングプログラムでマップされなかったものに対して)リー
ドを短くしてマップされるかどうか、を繰り返す
>75bp程度のマップされ
なかったリードの集団
mapping
遺伝子1
遺伝子1
遺伝子1
マップされない
マップされない
マップされた
splice-aware alignerを用いることで(既知遺伝子構造情報を
参照することもないので)新規アイソフォームの同定も可能
Mar 7 2013
42
「Garber et al., Nat. Methods, 8: 469-477, 2011」のFig. 1
Splice-aware alignerの様々な戦略
詳細を知りたいヒトは右上論文のReviewを参照
Mar 7 2013
43
雑感

一口にトランスクリプトーム解析といっても目的や手段は多様。
 トランスクリプトーム配列取得


ゲノム配列既知の場合、Cufflinksなどを用いて遺伝子構造推定(アノテーション)
ゲノム配列未知の場合、 Trinityなどのトランスクリプトーム用アセンブラを実行
 遺伝子(or




isoform)ごとの発現量推定
RSEMなどを利用して発現量情報を得る
ある特定のサンプル内での遺伝子間の発現量の大小関係を知りたい
Length biasやGC含量biasなどの各種補正がポイント
遺伝子レベルの発現量 ⇔ isoformレベルの発現量の正確な推定
 比較するサンプル間で発現変動している遺伝子(or



Mar 7 2013
isoform)の同定
TCCパッケージ(など)を利用して発現変動遺伝子(DEG)を得る
Sequence depthやサンプル間で発現している遺伝子のcomposition biasの補
正がポイント
(GO解析など)DEG結果を用いる多くの下流解析結果に影響を及ぼす
44
定量化:遺伝子レベル ⇒ isoformレベル

復習


RNA-seqデータは転写物(transcripts)を断片化してsequencingしたもの
一つの遺伝子領域(locus)から複数のsplice variants(or isoforms or transcripts)
が生成されうる



特定のisoformのみで使われているexonもあれば(例:isoform1だけがexon5を使っている)…
転写されるすべてのisoformsで共通して使われているexonもある(例:exons 1, 2, and 4)し…
(以下の図にはないが…)特定のisoformのみで使われているexonがない場合もある…
exon1
2
3
4
5
isoform1
isoform2
a gene (or a locus)
isoform3
exon1
2 3
4
1
2 3
4
1
2
5
4
isoformレベルの定量化も様々な戦略があります
Mar 7 2013
45
ALEXA-seq (Griffith et al., Nat. Methods, 7: 843-847, 2010)
isoformレベルの定量化

ALEXA-seqの場合


戦略:そのisoformだけにマップされたリード数(unique reads)をカウント
短所:unique exonを持たないisoformの定量化はできない
exon1
2
3
4
5
isoform1
isoform2
a gene (or a locus)
isoform3
exon1
2 3
4
1
2 3
4
1
2
5
4
isoform2と3の定量化ができない
Mar 7 2013
46
「Garber et al., Nat. Methods, 8: 469-477, 2011」のFig. 3b
isoformレベルの定量化

Cufflinks(Trapnell, 2010)やMISO(Katz, 2010)の場合


戦略:複数のisoformsにマップされるリード(multi reads)の割り当てについて、それ
以外のマップされたリードの(長さなどを考慮した)割合などを考慮して割り当てる
説明のための仮定



ある遺伝子領域から二つの転写物ができている(transcript1とtranscript2)
真実:発現レベルはtranscript1のほうが4倍高い
exon1,2,3の長さ比は2:2:1
exon1
2
3
全部で114 reads
transcript1
transcript2
発現比4:1
RNA-seq結果の
組成比は16:3
transcript1
transcript2
Mar 7 2013
47
「Garber et al., Nat. Methods, 8: 469-477, 2011」のFig. 3b
isoformレベルの定量化


戦略:複数のisoformsにマップされるリード(multi reads
)の割り当てについて、それ以外のマップされたリードの
(長さなどを考慮した)割合などを考慮して割り当てる
マッピング結果




exon1にマップされたリード数:60 reads
exon2にマップされたリード数:48 reads
exon3にマップされたリード数:6 reads
?
exon1
transcript1
transcript2
2
3
問題:exon1にマップされた60 readsをtranscript1と2に
どのように分配するか?


「マップされたリード数の比(48 : 6 = 8 : 1)」は×
「長さも考慮した比(48/2 : 6 = 4 : 1)」は○
transcript1
exon1
transcript2
exon1にマップされた60 readsの80%をisoform1へ、残りの20%をisoform2へ分配
Mar 7 2013
48
定量化:遺伝子レベル ⇔ isoformレベル

全体的な流れとしては遺伝子レベル → isoformレベル


例:新規splice variantの発見(Twine et al., PLoS One, 6: e16266, 2011)
「今ここにあるデータ」を様々な視点で解析可能な解像度は…遺伝子レ
ベルのデータ

例:遺伝子セット解析(Gene Ontology解析やパスウェイ解析など)のための基本情報は遺
伝子レベルの解像度
…

「isoformレベルの情報 → 遺伝子レベルの情報」への要約戦略

exon union method (Mortazavi et al., Nat. Methods, 5: 621-628, 2008)


全てのisoforms間で用いられているexonの情報(union:和集合)を利用
exon intersection method (Bullard et al., BMC Bioinformatics, 11: 94, 2010)

複数isoforms間で共通して用いられているexonの情報のみ(intersection:積集合)を利用
論点:count情報を得る際に、どのexonの情報を用いるか?
Mar 7 2013
49
「Garber et al., Nat. Methods, 8: 469-477, 2011」のFig. 3c
どのexonのカウント情報を用いるか?
算出された生リードカウント結果



exon union method(和集合)の場合:20 reads
Exon intersection method(積集合)の場合:11 reads
様々な思想があります…。当然、その
後の解析結果に影響を及ぼします
Mar 7 2013
50
発現レベルの定量化を行うプログラムたち
(おそらく)ゲノムマップデータを入力とするもの









Scripture (Guttman et al., Nat. Biotechnol., 28: 503-510, 2010)
Cufflinks (Trapnell et al., Nat. Biotechnol., 28: 511-515, 2010)
rQuant (Bohnert and Ratsch, Nucleic Acids Res., 38: W358-W351, 2010)
ALEXA-seq (Griffith et al., Nat. Methods, 7: 843-847, 2010)
MISO (Katz et al., Nat. Methods, 7: 1009-1015, 2010)
IsoformEx (Kim et al., BMC Bioinformatics, 12: 305, 2011)
RSEM (Li and Dewey, BMC Bioinformatics, 12: 323, 2011)
SLIDE (Li et al., PNAS, 108: 19867-19872, 2011)
(おそらく)トランスクリプトームマップデータを入力とするもの




Mar 7 2013
NEUMA (Lee et al., Nucleic Acids Res., 39: e9, 2011)
IsoEM (Nicolae et al., Algorithms Mol. Biol., 6: 9 2011)
RSEM (Li and Dewey, BMC Bioinformatics, 12: 323, 2011)
51
Reference-based strategy
1.
Splice-aware aligner(or spliced aligner)を用いてゲノムマッピング











BLAT (Kent WJ, Genome Res., 12: 656-664, 2002)
QPALMA (De Bona et al., Bioinformatics, 24: i174-i180, 2008)
TopHat (Trapnell et al., Bioinformatics, 25: 1105-1111, 2009)
GSNAP (Wu et al., Bioinformatics, 26: 873-881, 2010)
SpliceMap (Au et al., Nucleic Acids Res., 38: 4570-4578, 2010)
MapSplice (Wang et al., Nucleic Acids Res., 38: e178, 2010)
HMMSplicer (Dimon et al., PLoS One, 5: e13875, 2010)
X-MATE (Wood et al., Bioinformatics, 27: 580-581, 2011)
RNASEQR (Chen et al., Nucleic Acids Res., 40: e42, 2012)
PASSion (Zhang et al., Bioinformatics, 28: 479-486, 2012)
ContextMap (Bonfert et al., BMC Bioinformatics, 13 Suppl 6: S9, 2012)
これらのプログラム出力結果を利用して最終的な遺伝子構
造を構築するのがCufflinksやScriptureなどのプログラム

Mar 7 2013
TopHatとCufflinksを使って実際の作業を行うプロトコルもあります

Trapnell et al., Nat. Protocols, 7: 562-578, 2012
52
Schbath et al., J. Comput. Biol., 19: 796-813, 2012
Basic alignerについて


splice-aware aligner (spliced aligner)の多く?!は内部的に
basic aligner (unspliced aligner)を利用している。
アルゴリズム的な観点から大きく二つに大別可能
 Seed-and-extend



MAQ (Li et al., Genome Res., 18: 1851-1858, 2008)
SHRiMP2 (David et al., Bioinformatics, 27: 1011-1012, 2011)
…
 Burrows-Wheeler



Mar 7 2013
methods
transformation (BWT) methods
Bowtie (Langmead et al., Genome Biol., 10: R25, 2009)
BWA-SW (Li and Durbin, Bioinformatics, 26: 589-595, 2010)
…
BWT系はmismatchやindelに弱いが速い、などの特徴があった
が、両者ともに改良されている模様。昔ながらのプログラムの結
果が不満なら最新のプログラムを試してみるのもありだろう。
53
「Garber et al., Nat. Methods, 8: 469-477, 2011」のFig. 1
Splice-aware alignerの様々な戦略
TopHat
SpliceMap
MapSplice
…
Mar 7 2013
BLAT
QPALMA
GSNAP
…
54
比較トランスクリプトーム解析の流れ
複数のFASTQファイル
クオリティチェック
リファレンス配列の作成
アセンブル結果(multi-fasta)
ファイルから平均長やトータルの
長さなどの基本情報を抽出
マッピング
マッピング結果(BED形式)ファイルを入力として、
遺伝子ごとのマップされたリード数をカウント
発現変動遺伝子のリストアップや、作図など
データ解析 発現変動解析の入力データとして用いる「遺伝子
発現行列」中の数値は一意に決まるわけではない
(様々なバリエーションがあります)
Mar 7 2013
55
マッピング = (大量高速)文字列検索


マップされる側の配列:4コンティグ(or 4遺伝子 or 4染色体)
マップする側のNGS由来塩基配列データ:”AGG”
出力ファイル:hoge2.txt
Rでやってみよう
Mar 7 2013
56
パターンマッチング
Mar 7 2013
57
基本はコピペ
①一連のコマンド群をコピーして
②R Console画面上でペースト
Mar 7 2013
58
実行結果
実行前のhogeフォルダ
実行後のhogeフォルダ
Mar 7 2013
59
エクセルで開くとき…
(ドラッグ&ドロップで開こうとすると)エラーが出て一回目は開けないことが
あるが、その後もう一度同じ作業を繰り返すと開けます…
Mar 7 2013
60
ありがちなミス1
作業ディレクトリの変更を忘れている…
Mar 7 2013
61
ありがちなミス2
必要な入力ファイルが作業ディレクトリ中に存在しない…
Mar 7 2013
62
ありがちなミス3
出力予定のファイル名と同じものを別のプログラムで開い
ているため最後のwrite.table関数のところでエラーが出る
Mar 7 2013
63
ありがちなミス4
実行スクリプトをコピーする際、最後の行のところで改行
を含ませずにR Console画面上でペーストしたため、最後の
コマンドが実行されない(出力ファイルが生成されない)
Mar 7 2013
64
「----- ここまで -----」の一つ上の空行には「スクリプト最終行
のコマンドを確実に実行するため」という深い意味があります
Mar 7 2013
65
色についての説明
Mar 7 2013
66
hoge4.faファイルに対してNGS由来塩基配列データ(例:”CCT”)の
マッピング(or 文字列検索)を行い、一致領域情報を任意のファイル
名(例:”hoge3.txt”)で出力したいときは?
Mar 7 2013
67
①テンプレートのスクリプトをコピーして
②メモ帳などのテキストエディタにペーストして
③必要な箇所を変更して
Mar 7 2013
68
④変更後のスクリプトをまたコピーして
⑤(入力ファイルがあるフォル
ダの場所になっているかどうか
をちゃんと確認して)ペースト
Mar 7 2013
69
実行前のhogeフォルダ
実行結果
実行後のhogeフォルダ
Mar 7 2013
70
より現実に近い解析
data_reads.txt
>seq1
TTT
>seq2
GGG
>seq3
ACT
>seq4
ACA
複数個のリードからなるファイルを読み込んで
一度にマッピング結果を返すことも可能です
Mar 7 2013
71
パターンマッチング
Mar 7 2013
data_reads.txt
>seq1
TTT
>seq2
GGG
>seq3
ACT
>seq4
ACA
出力ファイル:hoge4.txt
72
出力結果ファイルと発現量の関係
出力ファイル:hoge4.txt
data_reads.txt
>seq1
TTT
>seq2
GGG
>seq3
ACT
>seq4
ACA
contig_1
contig_2
contig_3
contig_4
multi mapper(複数個所にマップされるリード)の取り扱いは?
Mar 7 2013
73
よく見かけるカウントデータ取得条件

basic alignerの一つであるBowtieプログラムを利用して、リ
ファレンス配列(ゲノム or トランスクリプトーム)の一カ所との
み(最大2塩基ミスマッチまで許容して)一致するリード(
uniquely mapped reads or unique mapper)数をカウント
 Marioni
et al., Genome Res., 18:1509-1517, 2008
 Bullard et al., BMC Bioinformatics, 11:94, 2010
 Risso et al., BMC Bioinformatics, 12:480, 2011
 ReCount (Frazee et al., BMC Bioinformatics, 12:449, 2011)
…
Mar 7 2013
74
出力ファイル:hoge4.txt
Unique mapperのみにすると…
data_reads.txt
>seq1
TTT
>seq2
GGG
>seq3
ACT
>seq4
ACA
contig_1
Mar 7 2013
contig_2
contig_3
contig_4
75
1.をやってみましょう。
76
Mar 7 2013
入力ファイルと目的のおさらい

入力ファイル1:sample_1.bed


BED形式ファイル。1列目の情報のみを用いてコンティグ(遺
伝子ID)ごとのカウント(出現回数)情報取得のために利用。
入力ファイル2:hoge4.fa

マップに用いたリファレンス配列。multi-fasta形式ファイル。
Description行のコンティグ名(ID)の並びで結果を出力させる
ために利用。
出力ファイル:output1.txt
Mar 7 2013
77
http://genome.ucsc.edu/FAQ/FAQformat.html#format1
BED形式
Mar 7 2013
78
マッピング結果の出力ファイル形式

(ゲノム配列の場合)どの染色体上のどの位置に(どのリード
が)マッピングされたか、あるいは(トランスクリプトーム配列の
場合)どの転写物配列上のどの位置に(どのリードが)マッピン
グされたかを表すファイル形式(フォーマット)は複数あります:
 BED

(Browser Extensible Data) format
BEDtools (Quinlan et al., Bioinformatics, 26: 841-842, 2010)
 GFF
(General Feature Format) format
 SAM (Sequence Alignment/Map) format

SAMtools (Li et al., Bioinformatics, 25: 2078-2079, 2009)
…
Mar 7 2013
79
実行結果
出力ファイル:output1.txt
80
Mar 7 2013
比較トランスクリプトーム解析の流れ
Mar 7 2013
複数のFASTQファイル
クオリティチェック
リファレンス配列の作成
アセンブル結果(multi-fasta)
ファイルから平均長やトータルの
長さなどの基本情報を抽出
マッピング
マッピング結果(BED形式)ファイルを入力として、
転写物ごとのマップされたリード数をカウント
データ解析
発現変動遺伝子のリストアップや、作図など
81
研究目的別留意点

ある特定のサンプル内での遺伝子間の発現量の大小関係を知
りたい場合
 「配列長」由来bias:長いほど沢山sequenceされる
 「GC含量」由来bias:カウント数の分布がGC含量依存的である

サンプル間比較(sample A vs. Bなど)で、発現変動遺伝子(
DEG)を調べたい場合
 「sequence
depthの違い」:総リード数がx倍違うと全体的にx倍変動…
 「組成の違い」:サンプル特異的高発現遺伝子の存在で比較困難に…
 RPM(CPM)正規化 → TMM正規化 → TbT正規化 → iDEGES正規化
総リード数を揃えるだけ
Mar 7 2013
DEGを(正確には
見積もらないの
で)多めにトリム
正規化の手順の
中で同定した
DEGをトリムする
ことでより頑健に
律速であった
DEG同定部分の
改良により、より
頑健且つ高速に
82
「Garber et al., Nat. Methods, 8: 469-477, 2011」のFig. 3a
配列長を考慮した発現量推定のイメージ




gene1: 3 exons (middle length), 14 reads mapped (low coverage)
gene2: 3 exons (middle length), 56 reads mapped (high coverage)
gene3: 2 exons (short length), 12 reads mapped (middle coverage)
gene4: 2 exons (long length), 31 reads mapped (middle coverage)
マップされたリード分布
生リードカウント結果
補正度の発現量
・長さが同じならリード数の多い方が発現量高い(gene 1 vs. 2)
・長いほどマップされるリード数が多くなる効果を補正する必要がある(gene 3 vs. 4)
一つのサンプル内で転写物(遺伝子)間の発現レベルの大小を比較したい場合には
配列長を考慮すべきである
Mar 7 2013
83
「Risso et al., BMC Bioinformatics, 12: 480, 2011」のFig.1
少ない ← カウント数 → 多い
GC biasの実例
GC含量が多い遺伝子や少ない遺伝子上に
マップされたリードカウント数は、GC含量が
中程度の遺伝子に比べて少ない傾向にある
少ない ←
Mar 7 2013
→ 多い
84
GC bias補正(EDASeqパッケージ)
Quantile
正規化
GC biasが緩和されていることがわかる…
85
Mar 7 2013
研究目的別留意点

ある特定のサンプル内での遺伝子間の発現量の大小関係を知
りたい場合
 「配列長」由来bias:長いほど沢山sequenceされる
 「GC含量」由来bias:カウント数の分布がGC含量依存的である

サンプル間比較(sample A vs. Bなど)で、発現変動遺伝子(
DEG)を調べたい場合
 「sequence
depthの違い」:総リード数がx倍違うと全体的にx倍変動…
 「組成の違い」:サンプル特異的高発現遺伝子の存在で比較困難に…
 RPM(CPM)正規化 → TMM正規化 → TbT正規化 → iDEGES正規化
総リード数を揃えるだけ
Mar 7 2013
DEGを(正確には
見積もらないの
で)多めにトリム
正規化の手順の
中で同定した
DEGをトリムする
ことでより頑健に
律速であった
DEG同定部分の
改良により、より
頑健且つ高速に
86
Sequence depth周辺の正規化法

RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008)

RPKM(Reads per kilobase of exon per million mapped reads)の長さ補正を行わないバージョン
 Reads per million mapped readsの略。

TMM正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010)

Trimmed Mean of M valuesの略
 発現変動遺伝子(DEG)のデータ正規化時の悪影響を排除すべく、M-A plot上で周縁部にあるデータを使
わずに正規化係数を決定する方法。

TbT正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012)

TMM法の改良版で、TMM-baySeq-TMMという3ステップで正規化を行う方法。
 1st stepで得られたTMM正規化係数を用いて、2nd step (baySeq)でDEG同定を行い、3rd step (TMM)
ではDEGを排除した残りのデータでTMM正規化。DEGの影響を排除しつつもできるだけ多くのnon-DEG
データを用いて頑健に正規化係数を決めるという思想(DEG elimination strategy提唱論文)。

iDEGES正規化(Sun et al., submitted)
DEG elimination strategy (DEGES) を一般化し、より高速且つ頑健にしたもの。TbTは「複製あり」のデー
タのみにしか対応していなかったが、「複製なし」データにも対応。
 iDEGES/edgeR正規化法:「複製あり」データ正規化用。TMM-(edgeR-TMM)nパイプライン
 iDEGES/DESeq正規化法:「複製なし」データ正規化用。DESeq-(DESeq-DESeq)nパイプライン

二群間比較用
Mar 7 2013
87
RPMの問題点

仮定



全4遺伝子
配列長は同じ
遺伝子4だけが発現変動遺伝子(DEG)
サンプルA (all reads = 15)
遺伝子1 遺伝子2 遺伝子3 遺伝子4
サンプルA (all reads = 30)
遺伝子1 遺伝子2 遺伝子3 遺伝子4
補正
サンプルB (all reads = 30)
遺伝子1 遺伝子2 遺伝子3 遺伝子4
サンプルB (all reads = 30)
遺伝子1 遺伝子2 遺伝子3 遺伝子4
補正後の解析結果:Aで高発現が3個, Bで高発現が1個
Mar 7 2013
88
M-A plot
総リード数が30になるように補正した後のデータ
2
-1
0
0
M
1
1
2
B群で高発現
-1
A群で高発現
-2
-2
A群 = B群
M=log(B)-log(A)
A群 < B群
A群 > B群
1
2
3
4
5
Ave.
低発現 ← 全体的に → 高発現
Mar 7 2013
1
2
3
4
5
Ave.
「(B群で)高発現の発現変動遺伝子」
の存在が悪影響を及ぼしている
89
TMM正規化法(Robinson and Oshlack, Genome Biol., 11:R25, 2010)
おさらい(RPMの正規化手順)

サンプルごとのlibrary size(=総リード数)を算出し、遺伝子(行)ごとの生
リードカウントをlibrary sizeで割る(さらに、その結果100万を掛ける)
「総リード数は一定」という仮定に基づいてデータの正規化を行うRPM補正
(全体の平均値を揃える)は高発現の発現変動遺伝子の悪影響を受ける。
やりたいこと:発現変動していない遺伝子(ピンク以外;non Differentially
Expressed Genes (non-DEG))の発現比(M値に相当)の要約統計量(平均
とか中央値のこと)が正規化後のデータでできるだけ0になるようにしたい。
RPM補正では-1になっており0から大きく外れていることがわかる
Mar 7 2013
90
Sequence depth周辺の正規化法

RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008)

RPKM(Reads per kilobase of exon per million mapped reads)の長さ補正を行わないバージョン
 Reads per million mapped readsの略。

TMM正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010)

Trimmed Mean of M valuesの略
 発現変動遺伝子(DEG)のデータ正規化時の悪影響を排除すべく、M-A plot上で周縁部にあるデータを使
わずに正規化係数を決定する方法。

TbT正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012)

TMM法の改良版で、TMM-baySeq-TMMという3ステップで正規化を行う方法。
 1st stepで得られたTMM正規化係数を用いて、2nd step (baySeq)でDEG同定を行い、3rd step (TMM)
ではDEGを排除した残りのデータでTMM正規化。DEGの影響を排除しつつもできるだけ多くのnon-DEG
データを用いて頑健に正規化係数を決めるという思想(DEG elimination strategy提唱論文)。

iDEGES正規化(Sun et al., submitted)
DEG elimination strategy (DEGES) を一般化し、より高速且つ頑健にしたもの。TbTは「複製あり」のデー
タのみにしか対応していなかったが、「複製なし」データにも対応。
 iDEGES/edgeR正規化法:「複製あり」データ正規化用。TMM-(edgeR-TMM)nパイプライン
 iDEGES/DESeq正規化法:「複製なし」データ正規化用。DESeq-(DESeq-DESeq)nパイプライン

Mar 7 2013
91
Robinson and Oshlack, Genome Biol., 11:R25, 2010
TMM正規化法
(発現比に相当する)M値の要約統計量の上位下位それぞれ30%をトリムした後の平均
値(trimmed mean)が揃うような正規化係数(TMM正規化係数)をlibrary sizeに掛ける
ことでeffective library sizeを算出し、その値で割る
3

0
-2
-1
M
1
2
RPM法:生リードカウントを「library size」で割る
TMM法:「library size×TMM正規化係数」で割る
Ave.
Mar 7 2013
92
Trimmed meanの計算イメージ

ある10個の要素からなる数値ベクトル(0,1,1,5,5,5, 6,10,100,1000)があったときに、上
位下位それぞれx%を除いて(トリムして)計算する平均値のこと
x=20%の場合
x=10%の場合
Mar 7 2013
93
TMM補正の有無で結論が異なることも…

得られた発現変動遺伝子(DEG)セット中の割合

TMM補正なし(Marioni et al., Genome Res., 18: 1509-1517, 2008)



TMM補正あり(Robinson and Oshlack, Genome Biol., 11:R25, 2010)



サンプルA(Kidney):78%
サンプルB(Liver):22%
サンプルA(Kidney):53%
サンプルB(Liver):47%
TMM法で使用されているパラメータ(一部)

log2(B/A)で発現変動順にランキングし、全体で全遺伝子数の60%分をTrim
(PDEG = 60%)。その内訳は、サンプルA側とサンプルB側で高発現なものを各
A群 B群
50%とする(PA = 50%) 。
PDEG  PA
Trim 後に残ったデータのみ
を用いて正規化係数を決定
PDEG  (100  PA )
Mar 7 2013
94
Marioni et al., Genome Res., 18: 1509-1517, 2008
A群 vs. B群の二群間比較

(当時は常識だった)RPM補正後のデータを用いて、二群で発現の異な
る遺伝子(Differentially Expressed Genes; DEGs)を同定した
kidney(腎臓)
liver(肝臓)
32000行
得られたDEGセットを眺めてみると、A群(kidney)で高発現なも
のが78%を占め、B群(liver)で高発現なものが22%しかなかった。
Mar 7 2013
hogeフォルダ中の「SupplementaryTable2_changed.txt」ファイル
95
TMM正規化法(Robinson and Oshlack, Genome Biol., 11:R25, 2010)
偏りの原因は…

ごく一部のB群(liver)で高発現の発現変動遺伝子(DEG)が存在していたため
1
0
-1
-2
M
(liverで超高発現の)少数のDEGの影響により、そ
の他の3遺伝子の発現レベルが過小評価されている
→A群(kidney)で高発現のDEGが多く検出される結
果になっていた!
2
3
真実(遺伝子4のみDEG)をうまく反映
Ave.
Mar 7 2013
96
「Robinson and Oshlack, Genome Biol., 11:R25, 2010」のFig. 1c
このあたりのB群(liver)で高
発現のDEGの存在により、そ
れ以外がA群(kidney)で高
発現側に偏っていることがわ
かる
TMM論文の実際の図
A群(kidney) < B群(liver)
A群 = B群
A群(kidney) > B群(liver)
Mar 7 2013
97
Dillies et al., Brief. Bioinform., 2012 Sep 17
Sequence depth周辺の正規化法

RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008)

RPKM(Reads per kilobase of exon per million mapped reads)の長さ補正を行わないバージョン
 Reads per million mapped readsの略。

TMM正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010)

Trimmed Mean of M valuesの略
 発現変動遺伝子(DEG)のデータ正規化時の悪影響を排除すべく、M-A
DEG elimination strategy (DEGES) plot上で周縁部にあるデータを使
わずに正規化係数を決定する方法。
発現変動遺伝子の影響を排除した後に正規化を行うという戦略

TbT正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012)

TMM法の改良版で、TMM-baySeq-TMMという3ステップで正規化を行う方法。
 1st stepで得られたTMM正規化係数を用いて、2nd step (baySeq)でDEG同定を行い、3rd step (TMM)
ではDEGを排除した残りのデータでTMM正規化。DEGの影響を排除しつつもできるだけ多くのnon-DEG
データを用いて頑健に正規化係数を決めるという思想(DEG elimination strategy提唱論文)。

iDEGES正規化(Sun et al., submitted)
DEG elimination strategy (DEGES) を一般化し、より高速且つ頑健にしたもの。TbTは「複製あり」のデー
タのみにしか対応していなかったが、「複製なし」データにも対応。
 iDEGES/edgeR正規化法:「複製あり」データ正規化用。TMM-(edgeR-TMM)nパイプライン
 iDEGES/DESeq正規化法:「複製なし」データ正規化用。DESeq-(DESeq-DESeq)nパイプライン

Mar 7 2013
98
DEGESって何デゲス?

概念図
~ アラフォー達の略称に関する議論 ~
門田:「DESで行くデス」
西山:「DEGESはいかが?」
門田:「面白くないので却下!」
西山:「左様デゲスか…DEGESって何デゲス?」
門田:「採用!」
RNA-seqなどから得られるタ
グカウントデータの正規化を
multi-stepで行う概念の総称
DEG同定を正確に行うのが正規化の目的の一
つではあるが、正規化時にDEGの存在自体が
DEGとして同定されるのを阻むことがわかった
(自爆テロ)。それゆえ、正規化時にDEGの検出
を行って、non-DEGのみ利用するのがポイント
Mar 7 2013
99
http://cran.r-project.org/web/packages/TCC/
DEGESって何デゲス?

DEGESのstep1-3で内部的に用いる方法は実用上なんでも?!よい

正規化
DEG検出
正規化
STEP 1
STEP 2
STEP 3
TbT正規化法(Kadota et al., 2012)
YES
TMM




baySeq
TMM
iteration ?
NO
×
TMM-baySeq-TMMパイプライン
step2でbaySeqパッケージ中のDEG同定法(経験ベイズ)を利用しているため遅い…
Iterative TbT(step2-3を繰り返してより頑健な正規化係数を得る)は非現実的
iDEGES/edgeR正規化法 (Sun et al., submitted)
YES
TMM



edgeR
TMM
iteration ?
NO
○
TMM-(edgeR-TMM)nパイプライン
Step2でedgeRパッケージ中のDEG同定法(exact test)を利用しているため速い!
DEGESをiterativeに行う頑健なiDEGES(愛デゲス)パイプラインを利用可能
TCCパッケージ(ver. 1.0.0)に実装済み
Mar 7 2013
100
どういうデータのときに有効デゲスか?

仮想データ(10,000 genes×6 samples)
 2,000




DEGs (10%がDEG)
Group1 (G1)で高発現:gene1~500 (50%)
Group2 (G2)で高発現:gene501~1000 (50%)
 500

DEGs (20%がDEG)
Group1 (G1)で高発現:gene1~1000 (50%)
Group2 (G2)で高発現:gene1001~2000 (50%)
 1,000

G1
G2
3 replicates 3 replicates
DEGs (5%がDEG)
Group1 (G1)で高発現:gene1~250 (50%)
Group2 (G2)で高発現:gene251~500 (50%)
DEG数のGroup間での偏りがない場合
「TMM正規化法」と「DEGES系の正規化法」
の理論上の性能は互角デゲス。
Mar 7 2013
101
http://www.almob.org/content/7/1/5/figure/F1
どういうデータのときに有効デゲスか?

仮想データ(10,000 genes×6 samples)
 2,000




DEGs (15%がDEG)
Group1 (G1)で高発現:gene1~900 (60%)
Group2 (G2)で高発現:gene901~1500 (40%)
 1,000

DEGs (20%がDEG)
Group1 (G1)で高発現:gene1~1800 (90%)
Group2 (G2)で高発現:gene1801~2000 (10%)
 1,500

G1
G2
3 replicates 3 replicates
DEGs (10%がDEG)
Group1 (G1)で高発現:gene1~200 (20%)
Group2 (G2)で高発現:gene201~1000 (80%)
DEGES系正規化法は、DEG数のGroup間での
偏りが大きいほど有効なんデゲス!
Mar 7 2013
102
研究目的別留意点

ある特定のサンプル内での遺伝子間の発現量の大小関係を知
りたい場合
 「配列長」由来bias:長いほど沢山sequenceされる
 「GC含量」由来bias:カウント数の分布がGC含量依存的である

サンプル間比較(sample A vs. Bなど)で、発現変動遺伝子(
DEGES系の方法が有効であるという根拠は?
DEG)を調べたい場合
 「sequence
depthの違い」:総リード数がx倍違うと全体的にx倍変動…
 「組成の違い」:サンプル特異的高発現遺伝子の存在で比較困難に…
 RPM(CPM)正規化 → TMM正規化 → TbT正規化 → iDEGES正規化
総リード数を揃えるだけ
Mar 7 2013
DEGを(正確には
見積もらないの
で)多めにトリム
正規化の手順の
中で同定した
DEGをトリムする
ことでより頑健に
律速であった
DEG同定部分の
改良により、より
頑健且つ高速に
103
正規化後のデータのnon-DEGの分布
G2で高発現 G1で高発現
non-DEG
DEG
デスクトップ – hoge - data_hypodata_3vs3.txt
Mar 7 2013
G1
G2
3 replicates 3 replicates
DEG
よりよい正規化法ほど、正規化後にnon-DEGデータ(2,00110,000行目)の分布が揃っているはず
non-DEG

「non-DEGのlog2(G2/G1)の中央値」
が0に近いほどよい正規化法
log2(G2/G1) = (M-A plotの)M値
104
Sequence depth周辺の正規化法

RPM (Mortazavi et al., Nat. Methods, 5: 621-628, 2008)
RPKM(Reads
per kilobase of exon per million mapped reads)の長さ補正を行わないバージョン
iDEGES/edgeR正規化後のデータから得られるnon-DEG由来median(M)
値 vs.
 Reads perTMM正規化後のデータから得られるnon-DEG由来median(M)
million mapped readsの略。
値。0に近いのは?


TMM正規化 (Robinson and Oshlack, Genome Biol., 11: R25, 2010)

Trimmed Mean of M valuesの略
 発現変動遺伝子(DEG)のデータ正規化時の悪影響を排除すべく、M-A plot上で周縁部にあるデータを使
わずに正規化係数を決定する方法。

TbT正規化 (Kadota et al., Algorithms Mol. Biol., 7: 5, 2012)

TMM法の改良版で、TMM-baySeq-TMMという3ステップで正規化を行う方法。
 1st stepで得られたTMM正規化係数を用いて、2nd step (baySeq)でDEG同定を行い、3rd step (TMM)
ではDEGを排除した残りのデータでTMM正規化。DEGの影響を排除しつつもできるだけ多くのnon-DEG
データを用いて頑健に正規化係数を決めるという思想(DEG elimination strategy提唱論文)。

iDEGES正規化(Sun et al., submitted)
DEG elimination strategy (DEGES) を一般化し、より高速且つ頑健にしたもの。TbTは「複製あり」のデー
タのみにしか対応していなかったが、「複製なし」データにも対応。
 iDEGES/edgeR正規化法:「複製あり」データ正規化用。TMM-(edgeR-TMM)nパイプライン
 iDEGES/DESeq正規化法:「複製なし」データ正規化用。DESeq-(DESeq-DESeq)nパイプライン

Mar 7 2013
105
「…ファイルに出力」までをコピペすれば、
iDEGES/edgeR正規化後のデータが得られます
Mar 7 2013
106
出力ファイル(の一部)
ちなみに、出力ファイルは「行名部分」と「正規化
後のデータ部分」をcbind関数を用いて列方向で
結合したものなので…
Mar 7 2013
107
出力ファイル(の一部)
gege.txt
「正規化後のデータ部分」にround関数
を適用した結果を出力することによって、
最も近い整数値に丸めることができます
Mar 7 2013
108
正規化後のデータでM-A plot
G2で高発現 G1で高発現
non-DEG
DEG
data_hypodata_3vs3_iDEGESedgeR.txt
Mar 7 2013
G1
G2
3 replicates 3 replicates
DEG
よりよい正規化法ほど、正規化後にnon-DEGデータ(2,00110,000行目)の分布が揃っているはず
non-DEG

「non-DEGのlog2(G2/G1)の中央値」
が0に近いほどよい正規化法
log2(G2/G1) = (M-A plotの)M値
109
M-A plot(基本形)

data_hypodata_3vs3_iDEGESedgeR.txtのM-A plotを作成
どちらかの群で0になっているものは(特にM値
が-Inf or +Infとなるので)、M-A plot不可能…
Mar 7 2013
110
M-A plot(TCCパッケージの0カウント対策)

data_hypodata_3vs3_iDEGESedgeR.txtのM-A plotを作成
②
①
③
④
①各群について、ゼロでない平均発現量の最小値を取得
②0だったところをその値で置換
③M値を再計算
④M-A plotの左側に、再計算して得られたM値をプロット
Mar 7 2013
111
1.の最後の三行分をコピペしてM-A plotを描画
Mar 7 2013
112
性能評価(仮想データ:偏りあり)


データ:non-DEG: 8000個、G1で高発現のDEG: 1800個、G2で高発現のDEG: 200個
評価基準:non-DEGのmedian(M)値が0に近いほどよい正規化法
iDEGES/edgeR法
median(M) = 0.033
計算時間 = 8.77 sec.
TbT法
median(M) = 0.049
計算時間 = 1468 sec.
TMM法
median(M) = 0.152
計算時間 = 0.1 sec.
iterative DEGES (iDEGES)正規化法は高精度かつ高速
Mar 7 2013
113
性能評価(仮想データ:偏りなし)


データ:non-DEG: 8000個、G1で高発現のDEG: 1000個、G2で高発現のDEG: 1000個
評価基準:non-DEGのmedian(M)値が0に近いほどよい正規化法
iDEGES/edgeR法
median(M) = -0.004
計算時間 = 8.28 sec.
TbT法
median(M) = -0.003
計算時間 = 1414 sec.
TMM法
median(M) = -0.008
計算時間 = 0.25 sec.
DEGの分布に偏りがない場合には(理論上)同じパフォーマンス
Mar 7 2013
114
Sun et al., submitted
TCC(ver. 1.0.0)の主な機能

DEG elimination strategy (DEGES)に基づくデータ正規化法を実装

複製ありデータ用



複製なしデータ用


iDEGES/DESeq正規化法:DESeq-(DESeq-DESeq)nパイプライン
既存パッケージ中のDEG検出法を呼び出して利用可能


TbT正規化法(Kadota et al., 2012): TMM-baySeq-TMMパイプライン
iDEGES/edgeR正規化法:TMM-(edgeR-TMM)nパイプライン
(正規化のところと同じく)edgeR, baySeq, DESeqパッケージ中の関数群を内部的
に利用
シミュレーションデータ作成機能


TCCの売りは(既存の手法を組み合わせることで)
データ正規化部分の精度向上に貢献
二群(複製あり and/or なし)、三群、四群、、、多群
発現変動の度合いを調整可能(Fold-Change, gamma分布)
Mar 7 2013
115
二群間比較用Rパッケージ
DEGSeq (Wang et al., Bioinformatics, 26: 136-138, 2010)
 edgeR (Robinson et al., Bioinformatics, 26: 139-140, 2010)
 GPseq (Srivastava and Chen, Nucleic Acids Res., 38: e170, 2010)
 baySeq (Hardcastle and Kelly, BMC Bioinformatics, 11: 422, 2010)
 DESeq (Anders and Huber, Genome Biol., 11: R106, 2010)
 NBPSeq (Di et al., SAGMB, 10: article24, 2011)
 NOISeq (Tarazona et al., Genome Res., 21: 2213-2223, 2011)
 BitSeq (Glaus et al., Bioinformatics, 28: 1721-1728, 2012)
 TCC (Sun et al., submitted) 「(TCC中で利用可能な)TbT正規化法」と「edgeR,
DESeq, baySeq, NBPSeq中のDEG検出法」との組合せ
R以外
が有効であることは既に実証済み(Kadota et al., 2012)
 GFOLD (Feng et al., Bioinformatics, 28: 2782-2788, 2012)
 Cuffdiff 2 (Trapnell et al., Nat. Biotechnol., 31: 46-54, 2013)

Mar 7 2013
116
TCCで正規化→DEG同定まで(複製あり)

iDEGES/edgeR正規化後にedgeRパッケージ中のDEG同定法を利用する場合
1.をやってみましょう。
Mar 7 2013
117
コピペ
Mar 7 2013
118
出力ファイルの説明
p-valueとその順位
入力データ
M-A plotのA値とM値
q-value
(param_FDRで指定した)FDR閾値
(<0.05)を満たすDEG。q-value <
0.05のものが0以外の値をとる。1:
G1で高発現、2:G2で高発現。
Mar 7 2013
119
http://www.iu.a.u-tokyo.ac.jp/~kadota/TCC/
TCC関連参考ウェブページ
Bioconductor likeなUser’s Guide (Vignette)もあります
Mar 7 2013
120
その他
Mar 7 2013
121
理想的な実験デザイン(二群間比較)

サンプルA vs. Bの比較(Kidney vs. Liver;腎臓 vs. 肝臓)
 生のリードカウントのデータ(整数値)
A1:ある生物の腎臓
A2:同じ生物種の別個体の腎臓
A3:同じ生物種のさらに別個体の腎臓
…
B1:ある生物の肝臓
B2:同じ生物種の別個体の肝臓
…
Biological replicatesのデータ
生物学的なばらつき(個体間の違い)を考慮すべし
Mar 7 2013
122
分布の話

例題:Marioni et al., Genome Res., 18: 1509-1517, 2008のデータ(の一部)
kidney(腎臓)
liver(肝臓)
Technical replicatesのデータ
サンプル内の技術的なばらつき(例:レーン間の違い)の度合いを調べ
るためのデータであり、このようなデータで二群間比較し、発現変動遺
伝子がどの程度あるかといった数に関する議論は無意味
解析例:アリエナイ?!数(50%とか)が発現変動遺伝子として検出される
理由:Biological variation > Technical variation
Mar 7 2013
123
分布の話

例題:Marioni et al., Genome Res., 18: 1509-1517, 2008のデータ(の一部)
kidney(腎臓)
RPM
正規化
12,685 
Mar 7 2013
1,000,000
 7027.8
1,804,977
124
分布の話

例題:Marioni et al., Genome Res., 18: 1509-1517, 2008のデータ(の一部)
kidney(腎臓)
y=x
adjusted R-squared: 0.897
y = a + bx
Technical replicatesのデータは:
Mar 7 2013
・(遺伝子の)VARIANCEはそのMEAN
で説明可能である
・VARIANCE ≒ MEAN
・ポアソン分布に従う
・ポアソンモデルが適用可能
125
分布の話

生物アイコン(http://biosciencedbc.jp/taxonomy_icon/taxonomy_icon.cgi)
例題:Cumbie et al., PLoS ONE, 6: e25279, 2011のデータ(の一部)
y = a + bx
Arabidopsis(シロイヌナズナ)
y=x
adjusted R-squared: 0.815
Biological replicatesのデータは:
・VARIANCE > MEAN
・負の二項(NB)分布に従う
・NBモデルが適用可能
Mar 7 2013
126
倍率変化がだめな理由をデモ

例題:Marioni et al., Genome Res., 18: 1509-1517, 2008のデータ
kidney(腎臓)
liver(肝臓)
発現変動遺伝子がないデータで二群間比較をしてみる
Mar 7 2013
A群
B群
127
倍率変化がだめな理由をデモ

例題:Marioni et al., Genome Res., 18: 1509-1517, 2008のデータ(の一部)

(A1, A2) vs. (A3, A4)の二群間比較結果
edgeRでFDR < 0.01を満たすものは0個
○
Rcode_edgeR_tech_rep_fdr001.txt
(edgeRで)2倍以上発現変動しているものは3814個
×
Rcode_edgeR_tech_rep_fc2.txt
低発現領域でlog比が大きくなる現象をうまくモデル化することが重要
Mar 7 2013
128
Biological replicatesの3 vs. 3サンプル

例題:Cumbie et al., PLoS ONE, 6: e25279, 2011のArabidopsisデータ
B群
26,221 genes
A群
data_arab.txt
オリジナルは” AT4G32850”のものが重複して存在し
ていたため19520行目のデータを予め除去している
Mar 7 2013
129
サンプル間クラスタリングも重要です
Mar 7 2013
130
サンプル間クラスタリングも重要です
データ中に発現変動遺伝子がありそうかどうかは
クラスタリング結果を眺めるだけでかなりわかる
Mar 7 2013
131
東大生以外の方も受講可能です(平成25年度もやります)
Mar 7 2013
132
謝辞
共同研究者
清水 謙多郎 先生(東京大学・大学院農学生命科学研究科)
西山 智明 先生(金沢大学・学際科学実験センター)
孫 建強 氏(東京大学・大学院農学生命科学研究科・修士課程1年)
グラント


基盤研究(C)(H24-26年度):「シークエンスに基づく比較トランスクリプトーム
解析のためのガイドライン構築」(代表)
新学術領域研究(研究領域提案型)(H22年度-):「非モデル生物におけるゲノ
ム解析法の確立」(分担;研究代表者:西山智明)
(妻の)門田 雅世さま作
挿絵やTCCのロゴなど
(有能な秘書の)三浦 文さま作
133
Mar 7 2013