300 frのトレント

!
'
This repository
Pull requests
Search
# +
Gist
suimye / NGS_handson2015
Short description of this repository
4 22 commits
Branch: master
$ Unwatch
1
⋆ Star
0
& Fork
0
Website
Description
3
Issues
Website for this repository (optional)
5 2 branches
7 0 releases
Save
or Cancel
( Code
) Issues
0
* Pull requests
0
6 1 contributor
2
NGS_handson2015 / +
+ Wiki
Update README.md
suimye authored 2 hours ago
" README.md
latest&commit&8d8e7067dc
Update README.md
/
2 hours ago
, Pulse
- Graphs
+ README.md
. Settings
平成27年度NGSハンズオン講習会
HTTPS clone URL
https://github.com/suimye/NGS_hand
/
You can clone with HTTPS, SSH,
or Subversion. ?
ChIP-Seq解析基礎-森岡担当
0 Clone in Desktop
バイオインフォマティクス人材育成カリキュラム、次世代シークエ
ンサ(NGS)ハンズオン講習会の講義資料になります。
平成27年度NGSハンズオン講習会の公式HP 2015全日程の講義資料
8/6以降も適宜更新作業を行っていますので、追加分で大事なところは赤字にしてあります。
ご質問は msmorioka-tkyあっとumin.ac.jpまでお願いいたします。
参考資料
2014のChIP-seq解析、河岡先生の資料へのリンク
shellの使い方: 服部先生の資料へのリンク
HOMER
NGS Surfer's wiki -bowtie, bwaのmultimappingのときのリードの分散について情報
はじめに
本実習の達成目標は、“NGS解析の初心者がNGSデータの一つであるChIP-seqデータに触れ、ChIPseq解析の流れを概要として掴み、自ら解析するときの足がかりとなる”ことを目指します。本実習で
利用する方法は、一般的に利用される方法ではありますが、Biolinux8という限られた環境で行うとい
う性質上、大変遺憾ながら最新の手法や、インストールの如何で個人差の生じるような方法をできる
だけ利用しないような配慮がなされています。従って、あくまでも“練習”であり、自分で実際に臨む
ときは最新の手法やさらに良いソフトウェアを利用することをオススメします。
1. Linux操作については、門田先生、服部先生のLinux基礎の知識を前提にしています。Commandで
分からないところがある場合は講義資料を参考にするようにつとめてください。
2. ソフトウェアの実行では、実習生のPC環境によって動作しない事があります。森岡が動作を保証
するものではありません。ソフトウェアの動作についてはソフトウェアの開発者に聴くことが重
要です。
3. 遅れても焦らずに。まずは講師のデモ・レクチャーを聴いた後に時間を与えますので、その時に
1
1 Download ZIP
周りに聴いたり、先生方に聴いて進むようにしてください。
NGS_handson2015
1. 初心者コース(森岡の講義とともに歩く)
ChIP-seqの基本原理と解析の流れ(pptで説明)
データの取得
データのQCと、ゲノムへのアライメント
Peak Callに基づくタンパク質-DNA結合領域の検出
Peak 領域の意味付けと統合解析(主にpptで説明)
Ngsplotを使ったtagの分布解析
HOMERの統合解析
2. 中級者以上コース(一匹狼たちへの課題)
© 2015 GitHub, Inc.
Terms
Privacy
Security
Contact
!
2
Status
API
Training
Shop
Blog
About
Help
!
&
This repository
Search
Pull requests
Issues
" +
Gist
suimye / NGS_handson2015
# Unwatch
1
data_retrive
⋆ Star
Edit
0
% Fork
0
New Page
'
suimye edited this page 12 hours ago · 3 revisions
(
2. ChIP-seqデータのGEOからの取得方法
論文から、GSEナンバーをcheck。GEOから検索します。 今回は、SoufiらのiPS細胞に関
する2012年の論文(Facilitators and Impediments of the Pluripotency Reprogramming
. Pages
7
Home
)
*
data_retrive
Factors' Initial Engagement with the Genome)からOct4のChIP-seqデータに興味をもっ
NGS_beginner
たと仮定して、データを取得してみよう。
NGS_senior
NGSplotsOnBiolinux8
PeakCallAndMDA
+
,
-
repeat region from
UCSC_table_browser
+ Add a custom sidebar
Clone this wiki locally
https://github.com/suimye/NGS_handson2015.wiki.git
/
0 Clone in Desktop
文献の中には、GSEナンバーが書いてあります。
このように、GSEナンバーを元に必要なデータをたどる方が確実に目標に近づくため大変
オススメです (文献をしっかり読んで、再解析のデータがどのようなデータとして得ら
れるかを予想しておくことは重要)。
GEOでの検索
では、NCBIの遺伝子発現オムニバスGEO, GEOのデータセット検索にアクセスしてみま
しょう。
http://www.ncbi.nlm.nih.gov/gds/
検索対象がGEO Datasetsになっていることを確認して、検索キーワードをiPS Oct4など
で検索してみましょう。
3
ところが、目的のSoufiらの論文に1ページ目ではたどり着けません。2012年の論文は現
在から既に5年が経過しているために、押し流されているので、やはりもっと限定的な
キーワードがよいということです。では次に、GSEナンバーに基づいてみましょう。
見事に一撃必殺です。topヒットをクリックしてください。
GSEはSeriesAccessionなので、その論文の著者がGEOにシリーズとして登録している
4
データのデータの概要(アブストラクト)を出してくれています。再解析をするときは、
最低でもこの内容に目を通すことが重要です。
従って、iPS細胞のOct4に関連するChIP-seqデータが欲しいという漠然とした検索対象で
GEOから探すよりも、論文を読んで、研究デザインに基づいて情報を抽出する方が確実
な再解析できると思います。もちろん、データ先導的な解析をしたい場合は、前者のよう
な方法も有効ですがその場合はもう少し自動的にデータをフィルタリングするなどの工夫
を行って、大量のデータを取得する方が望ましいでしょう。
GEOからのダウンロード
ここではGEOの使い方をお話しいたしますが、実際にダウンロードするのは他のテスト
データになります。説明だけですが、初心者にはとてもややこしいGSEナンバーから
GSMナンバー、SRXナンバーの捌き方を説明しますので、よく聴いておいてください。
URL下段には、Download familyや、Supplemental filesとして色々なデータが登録されて
います。 先にsupplemental filesをみてみると、
SRP/SRP011/SRP011557 (ftp) SRA Study
GSE36570_All_48hrs_MTFBRs.bed.gz 1.9 Mb (ftp)(http) BED
GSE36570_DBRs.bed.gz 2.9 Kb (ftp)(http) BED
GSE36570_RAW.tar 3.4 Gb (http)(custom)TAR (of BED, BW)
これらのデータは、生データ(NGSデータ)をグループとしてftpに置いてあるデータや、
NGS解析仮定でなんらかの処理が行われたデータ(processed data、ここではBEDファイ
ル)が登録されています。注意するべきは、processed dataは、どんなデータ形式をGEO
に置くかは特に取り決めがあるわけではありません。解析したデータを公開する目的で著
者らが好き勝手におけるものなので、論文によって置かれているデータの形式などが違い
ます。
今回のように1サンプルのダウンロードの場合はDownload familyからが便利です。この
項目には、サンプル毎にリンクとそのサンプルの研究における名前が書かれてあり、大変
便利です。このGSMナンバーをクリックし、次のページの下段にあるSRXナンバーをク
リックすればダウンロードできますが、今回は割愛します。
クリック以外のダウンロード方法
1.>wgetを利用する
#SRRナンバーのURLをコピー>(wget利用する、NCBI>toolkitを使う)
5
wget>Ind>ftp://ftpItrace.ncbi.nlm.nih.gov/sra/sraIinstant/reads/ByExp/sra/SRX%2FSRX130%2FSRX130060/SRR445816/SRR445816.sra
#ダウンロード後に、sraファイルを解凍する。
fastqIdump SRR445816.sra>
2.>SRRナンバーを引き出してfastqIdump>IAを利用する(NCBI>toolkitだけを使う、低速)
fastqIdump>IA>SRR445816.sra
#sraファイルを探し出し、ダウンロードしつつ解凍もしてくれる。
重要なのは、NGSデータなどのリポジトリのデータは、
GSEナンバー => GSMナンバー => SRX => SRRナンバー (NGSデータの名前) という
流れでアクセスすることで、ある研究 -> 個々のデータのGEO登録ナンバー =>NGS
ファイルの個々のナンバーまで到達すると得られるということです。
GEO以外のデータベース
DRA
fastqでデータが保持されているので、sraからの変換が要らない。
GEOのsraデータが破損している場合などにこちらでとれた経験あり。
GSEナンバーを入れるときは、keywordのところへ
fastqが保持されているので解析しやすい。
6
ENA
DRAと同様にfastqファイルを保持してくれている。
DRAがメンテナンス中のときはこちらを使う事も。
+ Add a custom footer
© 2015 GitHub, Inc.
Terms
Privacy
Security
Contact
!
7
Status
API
Training
Shop
Blog
About
Help
!
&
This repository
Search
Pull requests
Issues
" +
Gist
suimye / NGS_handson2015
# Unwatch
1
repeat region from UCSC_table_browser
⋆ Star
Edit
0
% Fork
0
New Page
'
suimye edited this page 20 hours ago · 2 revisions
(
1
UCSC table browserを用いたrepeat領
域の取得
. Pages
7
Home
*
data_retrive
NGS_beginner
UCSC table browserにアクセスする。
)
+
NGS_senior
NGSplotsOnBiolinux8
PeakCallAndMDA
,
-
repeat region from
UCSC_table_browser
+ Add a custom sidebar
Clone this wiki locally
https://github.com/suimye/NGS_handson2015.wiki.git
/
0 Clone in Desktop
上の図と同じのように設定にする。
genome: human
assembly: Feb. 2009 GRCh37/hg19
group: Repeats
region: genome
outputformat: BED
output file: hg19.rmsk.bed
file type returned:gzip compressed
get outputボタンを押す。
8
画面のget BEDを押す。
解凍などのデータの下処理
#ファイルサイズを確認しておく
ls -lath
drwxr-xr-x 3 suimye staff 102B 8 3 01:59 . -rw-r--r--@ 1 suimye staff 57M 8 3 01:58
hg19.rmsk.bed.gz drwxr-xr-x 49 suimye staff 1.6K 7 28 18:49 ..
#gzipコマンドで解凍
gzip -d hg19.rmsk.bed.gz
#中身の確認
head hg19.rmsk.bed
chr1 16777160 16777470 AluSp 2147 + chr1 25165800 25166089 AluY 2626 - chr1
33553606 33554646 L2b 626 + chr1 50330063 50332153 L1PA10 12545 + chr1
58720067 58720973 L1PA2 8050 - chr1 75496180 75498100 L1MB7 10586 + chr1
83886030 83886750 ERVL-E-int 980 - chr1 100662895 100663391 L2a 1422 - chr1
117440426 117440514 L1ME1 532 + chr1 117440494 117441457 L1ME1 4025 +
余計な情報を除去しておいく
cat@hg19.rmsk.bed@|cut@Df1,2,3,4@>hg19.rmsk.2.bed@
9
!
&
This repository
Search
Pull requests
Issues
" +
Gist
suimye / NGS_handson2015
# Unwatch
1
NGS_beginner
⋆ Star
Edit
0
% Fork
0
New Page
'
suimye edited this page 6 minutes ago · 33 revisions
(
1
. Pages
実習環境の準備
7
Home
あらかじめ解析データを入れるフォルダを作成しましょう。
)
*
data_retrive
NGS_beginner
+
NGS_senior
#実習フォルダの作成
mkdir'~/tutorial150806'
#フォルダへ移動
cd''~/tutorial150806'
NGSplotsOnBiolinux8
PeakCallAndMDA
,
-
repeat region from
UCSC_table_browser
必要なデータのダウンロード
+ Add a custom sidebar
今回の実習に利用するデータをダウンロードしましょう。 google drive,dropboxに置いて
あります。 講義中にDLしておいてください。
Clone this wiki locally
https://github.com/suimye/NGS_handson2015.wiki.git
/
DLサイト1 DLサイト2 DLサイト3
0 Clone in Desktop
データ移動させ解凍しておく
ダウンロードできたかどうかは、ブラウザの右上にあるDownloadsをクリックすると確
認できます。ダウンロード完了後、以下のコマンドを実行して解凍してください。
#ヒトゲノム配列の解凍(hg19の染色体17番のデータ)
mv'~/Downloads/hg19_chr17.zip'./
unzip'hg19_chr17.zip
mv'hg19_chr17/*'./
mv'~/Downloads/sample.fastq.gz'./
gzip'Fd'sample.fastq.gz
mv'~/Downloads/nazo.fastq.gz'./
gzip'Fd'nazo.fastq.gz
0. 今回のデータの取得とクオリティcheck
fastqファイルを取得したら、shell環境で念のために中身のデータを確認してみる(head
commandの復習: 中身をheadコマンドで確認してみる)。
head'sample.fastq'''''''''''
@SRR445816.18948743'HWUSIFEAS366_145:3:39:5673:1812/1
ACTCCTGCCTCAGGTGATCCATCCGCCTCAGCCTCT
+
10
BDGGG@GDGGBG@DDE@ABFGGGB<CFEAE<:???=
@SRR445816.28703832'HWUSIFEAS366_145:3:61:8637:6699/1
ACTGACTCAAATGTTAATCTCCTTTGGCAACACTCT
+
IIIIIIIIIIIIIIIIIIIIIIEIIIIIIIIIIIII
@SRR445816.43211059'HWUSIFEAS366_145:3:94:3572:7097/1
TAAGCCCCTTCTCTTAGGATTTATAACCTCATCACT
Phred scoreに基づくsequencing qualityのチェックをしてみよう
fastqcコマンドを使って、クオリティをcheckする。
まず出力先のディレクトリを作成し、fastqcを行う(出力ディレクトリーには、日付を入れ
よう!)。
mkdir'sample_qc1/
fastqc'Fo'sample_qc1/'sample.fastq
mkdir'input_qc1/
fastqc'Fo'input_qc1/'input.fastq
fastqx_toolkitを使ったQCフィルタリング
QV>=20以上が80%あるreadを残す
fastq_quality_filter'Fq'20'Fp'80'FQ33'Fi'sample.fastq'Fo'sample.q1.fastq
fastq_quality_filter'Fq'20'Fp'80'FQ33'Fi'input.fastq'Fo'input.q1.fastq
先ほどと同様に品質評価を行い、filtering前とfiltering後を比較してみる。
mkdir'sample_q1_qcout/
mkdir'input_q1_qcout/
fastqc'Fo'sample_q1_qcout/'sample.q1.fastq
fastqc'Fo'input_q1_qcout/'input.q1.fastq
結果のhtmlファイルをクリック
1. リード長に伴うシーケンシングスコアの推移の比較
2. 塩基バイアスの調査(トリムの必要あるか)
11
1. bowtie2を使ったゲノムへのマッピング
bowtie2'Fp4'FN0'Fx'./hg19_chr17/hg19_chr17'sample.q1.fastq'>'sample.sam
bowtie2'Fp4'FN0'Fx'./hg19_chr17/hg19_chr17'input.q1.fastq'>'input.sam
重要なオプションの解説
Fx:'参照するゲノムを指定。bowtie2用のインデックス化されたゲノムが必要
Fq:'入力配列。fastq形式(.fqか.fastq)
FS:'アライメント後の出力ファイル名の指定
Fp:'利用するスレッド数
FFun:'ゲノムにアライメントされなかったfastqファイルを出力するファイル
F5:'5'からトリムする場合の塩基数
F3:'3'からトリムする場合の塩基数
FFqcFfilter:'fastqファイルのPhred'Scoreに基づくfiltering'(先にqc'filteringしていない場合に用いる)
Fr:'pairFend'readのアライメントを行う時に
出力結果
iu@bio[tutorial150806]'bowtie2'Fp4'FN0'Fx'./hg19_chr17/hg19_chr17'sample.q1.fastq'FFun'sample.un.out'>'sample.sam
6164507'reads;'of'these:
''6164507'(100.00%)'were'unpaired;'of'these:
''''0'(0.00%)'aligned'0'times
''''1550235'(25.15%)'aligned'exactly'1'time
''''4614272'(74.85%)'aligned'>1'times
100.00%'overall'alignment'rate
裏課題
暇なひと(上級者)は、sample.un.outのデータからどんな塩基配列がmapされなかった
か調べてみよう。
12
- software
DeconSeq
- 地味にやる
wget'"https://raw.githubusercontent.com/jimhester/fasta_utilities/master/scripts/fastq2fasta.pl"
1. GGGenomeを使う(http://gggenome.dbcls.jp/ja/)
2. 相同性検索をかける
samファイルの中身を覗いてみてみよう。
先頭から五行表示
iu@bio[tutorial150806]'head'Fn5'sample.sam'''''''''''[12:12午前]
@HD'VN:1.0''SO:unsorted
@SQ'SN:chr17''''LN:81195210
@PG'ID:bowtie2''PN:bowtie2''VN:2.2.4''''CL:"/usr/bin/../lib/bowtie2/bin/bowtie2FalignFs'FFwrapper'basicF0'Fp4'FN0'Fx'./hg19_chr17/h
SRR445816.15448471''0'''chr17'''5102645'1'''36M'*0''0'''CTCCCAGGCTGGAGTGCAGTGGTGCAATCTTGGCTC''''HHHHHHHHHHHHHGHHHHFGGGCGGHHHHHHHHHH
SRR445816.28703832''0'''chr17'''10949619''''1'''36M'*'''0'''0'''ACTGACTCAAATGTTAATCTCCTTTGGCAACACTCT''''IIIIIIIIIIIIIIIIIIIIIIEIIII
iu@bio[tutorial150806]''
The SAMファイルの情報一覧:
Read Name
SAM flag
chromosome (if read is has no alignment, there will be a "*" here)position (1-based
index, "left end of read")
MAPQ (マッピングクオリティ, 0=non-unique, >10 probably unique)
CIGAR string (insertion (i.e. introns)がリードの中にあるか否かなどに重要。例えば、
splicing junctionの決定などにも利用)
Name of mate (mate pair information for paired-end sequencing, often "=")
Position of mate (mate pair information)
Template length (always zero for me)
Read Sequence
Read Quality
Program specific Flags (i.e. HI:i:0, MD:Z:66G6, etc.)
2. データの変換操作とクレンジング
XSの情報を使って、データをクレンジング
ゲノムに複数アライメントされうるreadは、どこのゲノム領域を読んだ配列か不確かなの
で、不確かな情報は除外しておく。
#クレンジングする前
wc'sample.sam
25003
#2カ所以上でmappingされるreadの数
grep'"XS"'sample.sam'>'sample.multi.sam'
wc'sample.multi.sam
2515
13
#multiFmappedを除く。
grep'Fv'"XS"'sample.sam'>'sample.uq.sam
grep'Fv'"XS"'input.sam'>'input.uq.sam
samからbamファイルへの変換
samファイルのバイナリー形式であるbamファイルへ変換する。
samtools'view'FbS'sample.uq.sam'>sample.uq.bam
samtools'sort'sample.uq.bam'sample.uq.sort
samtools'view'Fb'FS'input.uq.sam'>input.uq.bam
samtools'sort'input.uq.bam'input.uq.sort
#ls'Falをつかって、ファイルサイズを確認しておく。
ls'Fal
optional: Picard-toolsを使ったPCR duplicatesの除去
上記までのクレンジングしてもなお、peak callをした時にセントロメアや、テロメア、
GCリッチな配列、ホモポリマーなどの領域に大きなpeakが検出されてしまう場合、PCR
duplicateの除去をオススメする。
picardFtools'MarkDuplicates'INPUT=sample.uq.sort.bam'OUTPUT=sample.uq.sort.drm.bam'METRICS_FILE=sample.uq.sort.metrics'AS=true'REMO
picardFtools'MarkDuplicates'INPUT=input.uq.sort.bam'OUTPUT=input.uq.sort.drm.bam'METRICS_FILE=input.uq.sort.metrics'AS=true'REMOVE_
出力結果
[Mon'Aug'03'01:30:21'JST'2015]'net.sf.picard.sam.MarkDuplicates'INPUT=[sample.uq.sort.bam]'OUTPUT=sample.uq.sort.drm.bam'METRICS_FI
[Mon'Aug'03'01:30:21'JST'2015]'Executing'as'iu@bio'on'Linux'3.13.0F57Fgeneric'amd64;'OpenJDK'64FBit'Server'VM'1.7.0_79Fb14;'Picard'
INFO''''2015F08F03'01:30:22'MarkDuplicates''Start'of'doWork'freeMemory:'30647024;'totalMemory:'31457280;'maxMemory:'620756992
INFO''''2015F08F03'01:30:22'MarkDuplicates''Reading'input'file'and'constructing'read'end'information.
INFO''''2015F08F03'01:30:22'MarkDuplicates''Will'retain'up'to'2463321'data'points'before'spilling'to'disk.
WARNING'2015F08F03'01:30:22'AbstractDuplicateFindingAlgorithm'''Default'READ_NAME_REGEX''[aFzAFZ0F9]+:[0F9]:([0F9]+):([0F9]+):([0F9
INFO''''2015F08F03'01:30:25'MarkDuplicates''Read'''''1,000,000'records.''Elapsed'time:'00:00:02s.''Time'for'last'1,000,000:''''2s.'
INFO''''2015F08F03'01:30:25'MarkDuplicates''Tracking'0'as'yet'unmatched'pairs.'0'records'in'RAM.
INFO''''2015F08F03'01:30:26'MarkDuplicates''Read'1550235'records.'0'pairs'never'matched.
INFO''''2015F08F03'01:30:27'MarkDuplicates''After'buildSortedReadEndLists'freeMemory:'242052288;'totalMemory:'365953024;'maxMemory:
INFO''''2015F08F03'01:30:27'MarkDuplicates''Will'retain'up'to'19398656'duplicate'indices'before'spilling'to'disk.
INFO''''2015F08F03'01:30:27'MarkDuplicates''Traversing'read'pair'information'and'detecting'duplicates.
INFO''''2015F08F03'01:30:27'MarkDuplicates''Traversing'fragment'information'and'detecting'duplicates.
INFO''''2015F08F03'01:30:27'MarkDuplicates''Sorting'list'of'duplicate'records.
INFO''''2015F08F03'01:30:27'MarkDuplicates''After'generateDuplicateIndexes'freeMemory:'347730928;'totalMemory:'506462208;'maxMemory
INFO''''2015F08F03'01:30:27'MarkDuplicates''Marking'159965'records'as'duplicates.
INFO''''2015F08F03'01:30:27'MarkDuplicates''Found'0'optical'duplicate'clusters.
INFO''''2015F08F03'01:30:39'MarkDuplicates''Before'output'close'freeMemory:'517976680;'totalMemory:'523239424;'maxMemory:'620756992
INFO''''2015F08F03'01:30:46'MarkDuplicates''After'output'close'freeMemory:'507489848;'totalMemory:'512753664;'maxMemory:'620756992
[Mon'Aug'03'01:30:46'JST'2015]'net.sf.picard.sam.MarkDuplicates'done.'Elapsed'time:'0.41'minutes.
Runtime.totalMemory()=512753664
bamファイルから、ゲノム上のrepeat領域を除く
ChIP-seqデータはゲノムDNAをシェアリングしているので、ホモポリマーをはじめとし
たGCリッチな配列や繰り返し配列が検出されやすい。そこで、reapeatに結合性のタンパ
ク質の場合を除き、reapeat配列にマップされたのリードをあらかじめ除去しておく。
UCSCからリピート配列のBED配列の取得。
intersectBed'Fabam'sample.uq.sort.bam'Fb'hg19.rmsk.2.bed'Fv'>'sample.uq.rmsk.bam
14
intersectBed'Fabam'input.uq.sort.bam'Fb'hg19.rmsk.2.bed'Fv'>'input.uq.rmsk.bam
3. アライメント後のデータの可視化
データをUCSC genome browserで見る
genomeCoverageBed'Fibam'sample.uq.rmsk.bam'Fbg'Ftrackline'Ftrackopts''name="sample"'color=250,0,0''>'sample.bedGraph
genomeCoverageBed'Fibam'input.uq.rmsk.bam'Fbg'Ftrackline'Ftrackopts''name="input"'color=250,250,0''>'input.bedGraph
1. UCSC genome browserへアクセス
2. hg19のゲノムトラックであることを確認
3. manageCustomTracksを選択
4. add custom tracksでbedGraphファイルを選択
5. 作成したbedGraphをsubmitする
Upload中の画面
1. uploadが完了すれば次のような画面になるので、go genome browserをクリック
なおこの画面では、自分が入れたファイル(custom track)を管理することができる
カスタムトラックの追加
15
カスタムトラックの削除
名前をクリックすれば名前を変更可能
1. zoom out x100
1. カスタムトラックのところで、右クリック。 denseからfullに変更する
ブラウザの下にあるCustom Tracksのところからも操作可能
2. TP53を入力し、GOを押す。
+ Add a custom footer
© 2015 GitHub, Inc.
Terms
Privacy
Security
Contact
!
16
Status
API
Training
Shop
Blog
About
Help
!
&
This repository
Search
Pull requests
Issues
" +
Gist
suimye / NGS_handson2015
# Unwatch
1
PeakCallAndMDA
⋆ Star
Edit
0
% Fork
0
New Page
'
suimye edited this page 11 hours ago · 3 revisions
(
. Pages
1
3. Peak Callに基づくタンパク質-DNA
結合領域の検出
7
Home
)
*
data_retrive
NGS_beginner
+
NGS_senior
今回の実習では、Biolinux8で利用できるMACS14を利用します。 ノイズフィルタリング
を行った前と後のデータでpeak callの結果を比較しましょう!!!
NGSplotsOnBiolinux8
PeakCallAndMDA
3.1 早速 MACSをかけてみる
,
-
repeat region from
UCSC_table_browser
#ノイズフィルタリング後のデータ
macs14()t(sample.uq.drm.rmsk.bam(())name=sample()c(input.uq.drm.rmsk.bam()f(BAM()g(hs())(wig + Add a custom sidebar
#ノイズフィルタリング前のデータでも行い、比較してみよう!
macs14()t(sample.bam(())name=sample_before()c(input.bam()f(BAM()g(hs())(wig
Clone this wiki locally
https://github.com/suimye/NGS_handson2015.wiki.git
/
出力
0 Clone in Desktop
iu@bio[tutorial150806](macs14()t(sample.uq.bam(())name=sample()c(input.uq.bam()f(BAM()g(hs())(wig(
INFO((@(Tue,(04(Aug(2015(00:49:18:(
#(ARGUMENTS(LIST:
#(name(=(sample
#(format(=(BAM
#(ChIP)seq(file(=(sample.uq.bam
#(control(file(=(input.uq.bam
#(effective(genome(size(=(2.70e+09
#(band(width(=(300
#(model(fold(=(10,30
#(pvalue(cutoff(=(1.00e)05
#(Large(dataset(will(be(scaled(towards(smaller(dataset.
#(Range(for(calculating(regional(lambda(is:(1000(bps(and(10000(bps
INFO((@(Tue,(04(Aug(2015(00:49:18:(#1(read(tag(files...(
INFO((@(Tue,(04(Aug(2015(00:49:18:(#1(read(treatment(tags...(
INFO((@(Tue,(04(Aug(2015(00:49:18:(tag(size:(36(
INFO((@(Tue,(04(Aug(2015(00:49:23:((1000000(
INFO((@(Tue,(04(Aug(2015(00:49:27:(#1.2(read(input(tags...(
INFO((@(Tue,(04(Aug(2015(00:49:31:(#1(tag(size(is(determined(as(36(bps(
INFO((@(Tue,(04(Aug(2015(00:49:31:(#1(tag(size(=(36(
INFO((@(Tue,(04(Aug(2015(00:49:31:(#1((total(tags(in(treatment:(
.....(中略.....
INFO((@(Tue,(04(Aug(2015(00:50:08:(#5(Done!(Check(the(output(files!(
MACSの解析結果のファイル MACSの出力の説明について
1. peaks.xls
chr 染色体番号
start ピークの開始
17
end ピークの終了位置
length ピーク領域の長さ
summit ピークの頂点の開始位置からの相対位置
tags ピーク領域のタグ数
-10*LOG10(pvalue)
fold_enrichment 基準からの倍差
FDR(%) %表示したFDR値
2. negative_peaks.xls
ctrl側のピークの情報
3. peaks.bed
i. 染色体番号
ii. 開始座標
iii. 終了座標
iv. Peak ID
v. スコア
bedファイルはIGVでのpeak位置確認や、その他の解析のために整形・利用できるので便
利。
3.2 Rを使ってMACSで行ったtag-shift peakのモデルの具
合をcheckする
R())vanilla(<(sample_before_model.r
Peakを拾って、詳細な解析のための下準備をする
18
今回はscoreの高い順番に50 peakを取得
cat(sample_peaks.bed(|sort()k5()n()r((>sample_peaks.sort.bed(
headで確認して見ると
head(sample_peaks.sort.bed(
chr17(((25301798((((25304698((((MACS_peak_662(((3100.00
chr17(((25287092((((25288357((((MACS_peak_648(((2425.18
chr17(((25268055((((25269504((((MACS_peak_632(((2202.03
chr17(((25285964((((25286720((((MACS_peak_647(((1622.51
chr17(((81181350((((81182196((((MACS_peak_2505((1606.45
chr17(((51183091((((51183752((((MACS_peak_1618((1515.69
chr17(((25288564((((25289503((((MACS_peak_649(((1464.25
chr17(((22021833((((22022232((((MACS_peak_594(((1229.63
chr17(((22023645((((22023897((((MACS_peak_599(((1055.50
chr17(((22022568((((22022976((((MACS_peak_596(((986.64
top50を取得
head()n50(sample_peaks.sort.bed(>top50.bed
4. タンパク質-DNA結合領域(Peak)の配
列解析
1. IGVを使って、個々にしらべる。
2. top100を使って、motif discoveryをする。
4.1 champion peakのTFBS searchをやってみよ
う
どうやら、MA_662がNo.1らしい。
IGVでMACS_peak_662をsearch.
目的位置を赤いバー囲むようにクリックで選択する
赤いバー右クリック、peakの領域の塩基配列を取得する
19
TFBS search (簡易版、検索する転写因子が決まっている場
合)
physbinderにアクセス
Use Methodを選択。
コピーした配列をペーストする。
20
fasta形式になるように、先頭に">文字列"をつける。
TFBS modelを選択する。
解析中の画面
解析結果の画面
21
4.2 motif discovery analysis
motif discovery analysisでは、得られたDNA配列からTFBS searchよりも発見的に配列の
規則を見つけ出す手法
1. Peak Callで得られたbedファイルから、fastaファイルを作成する
2. fastaファイルをmulti fastaにする
3. MEME-ChIPを使って、motif探索を行う
fastaファイルを作るための整形
#summitは、領域が小さいので、前後20bpほど追加する。
cat(top50.bed(|perl()e('while(<>){my($chr,$st,$en,$id,$score)=split/\t/;($st=$st()10;($en=$en(+10;(print("$chr\t$st\t$en\t$id\t$sco
#top50のdataからdata(rangeを使って、blastdbcmdのコマンドを作成する。
cat(top50.plus.bed|cut()f1,2,3,4|sed('s/\t/)/g'|sed('s/chr17)/blastdbcmd()db(hg19_chr17.fa()entry(all()range(/'(|sed('s/)MACS_/(>/'
出力結果のcheck
iu@bio[tutorial150806](cat(peak_1044((((((((((((((([(1:24午前]
>gnl|BL_ORD_ID|0:33981997)33982008(chr17
TAAGATTTGCCG
fastaファイルをひとまとめにして、multi fastaを作成する
#mfa作成
iu@bio[tutorial150806](cat(peak_*(>top50.mfa((((((([(1:28午前]
#中身の確認
22
iu@bio[tutorial150806](head(top50.mfa(((((((((((((([(1:29午前]
>gnl|BL_ORD_ID|0:33981997)33982008(chr17
TAAGATTTGCCG
>gnl|BL_ORD_ID|0:41231735)41231746(chr17
GTGAGAACCAAT
>gnl|BL_ORD_ID|0:51183370)51183381(chr17
TCCCCTATTCTC
>gnl|BL_ORD_ID|0:57248285)57248296(chr17
AACACACAGCTC
>gnl|BL_ORD_ID|0:57249598)57249609(chr17
GTTCCGCCCCAG
#必要のない個々のfastaファイルを削除する
iu@bio[tutorial150806](rm()f(peak_*(((((((((((((((([(1:29午前]
MEME-ChIP
MEME-ChIPへアクセスする
左のタブのMotif Discoveryをクリック
MEME-ChIPを選択
23
重要なパラメータについて
How many motifs should MEME find?
与えた配列に対して、全体でいくつのmotifを見つけさせるか
What width motifs should MEME find?
motifの大きさ
How many sites per motif is acceptable?
発見したmotifが利用している配列の数
結果の画面
download、もしくはhtmlで結果をみてみる。
+ Add a custom footer
© 2015 GitHub, Inc.
Terms
Privacy
Security
Contact
!
24
Status
API
Training
Shop
Blog
About
Help
!
&
This repository
Search
Pull requests
Issues
" +
Gist
suimye / NGS_handson2015
# Unwatch
1
NGSplotsOnBiolinux8
⋆ Star
Edit
0
% Fork
0
New Page
'
suimye edited this page an hour ago · 11 revisions
(
Ngsplotのbiolinux8でのinstallと解析
. Pages
7
Home
link
)
*
data_retrive
Ngsplot-2.47をDL
NGS_beginner
雑感、doMCのパッケージがミラー先によってinstallできない印象がある。 それ以外
+
NGS_senior
は、大きくこけるところは無くinstallできる模様 R version 3.2.0 (2015-04-16) --
NGSplotsOnBiolinux8
"Full of Ingredients"
PeakCallAndMDA
,
-
repeat region from
UCSC_table_browser
installディレクトリの作成
mkdir&~/tools
mv&~/Downloads/&~/tools
cd&~/tools
#解凍
tar&xzvf&ngsplot92.47.tar.gz
+ Add a custom sidebar
Clone this wiki locally
https://github.com/suimye/NGS_handson2015.wiki.git
/
0 Clone in Desktop
pathを通す
echo&'export&PATH=~/tools/ngsplot/bin:$PATH'&>>~/.bashrc
echo&'export&NGSPLOT=~/tools/ngsplot'&>>~/.bashrc
pathを有効にする
source&~/.bashrc
Rのパッケージインストール
updateもすべてYes、10分以上かかる
source("http://bioconductor.org/biocLite.R")
install.packages("doMC")&#ミラーはchina2を選択
biocLite("caTools",&dep=T)
install.packages("utils",&dep=T) #R3.0以降はutilsは、必要ない
biocLite("ShortRead")
biocLite("BSgenome")
install時のwarning message
#####BitSeqがインストールできていない状況、ただしprogramは最終的に動いた。
*&DONE&(GenomeInfoDb)
The&downloaded&source&packages&are&in
&&&&‘/tmp/RtmpoZ1j1c/downloaded_packages’
Warning&message:
In&install.packages(update[instlib&==&l,&"Package"],&l,&contriburl&=&contriburl,&&:
25
&&installation&of&package&‘BitSeq’&had&non9zero&exit&status
備考:doMCが入って無いときのエラーメッセージ
Loading&R&libraries..Installing&package&into&‘/home/iu/R/x86_649pc9linux9gnu9library/3.2’
(as&‘lib’&is&unspecified)
Error&in&contrib.url(repos,&type)&:&
&&trying&to&use&CRAN&without&setting&a&mirror
Calls:&install.packages&9>&grep&9>&contrib.url
In&addition:&Warning&message:
In&library(package,&lib.loc&=&lib.loc,&character.only&=&TRUE,&logical.return&=&TRUE,&&:
&&there&is&no&package&called&‘doMC’
Execution&halted
pathが通っているか確認
iu@bio[ctcf]&ngsplotdb.py&list&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
ID&&&Assembly&Species&&&&&&EnsVer&&&NPVer&&&&InstalledFeatures&&&&&&&&&&&&
hg19&GRCh37&&&homo_sapiens&74.0&&&&&3.0&&&&&&cgi,exon,genebody,tss,tes&
ngsplotにはデフォルトでhg19が入っているこれを用いて
今回のデータを解析してみる
ngs.plot.r&9G&hg19&9R&genebody&9C&sample.uq.sort.bam&9O&CTCF.genebody&9T&CTCF&9L&3000&9FL&200
ngs.plot.r&9G&hg19&9R&genebody&9C&input.uq.sort.bam&9O&input.genebody&9T&input&9L&3000&9FL&200
-G: ゲノム(専用のデータがGDriveに落ちてる)
-R: 解析region、いろいろ選べる。
-C: 解析対象のbamファイル
-O: outputフォルダの名前
-T: plotの中のレジェンドにつく名前
-L: 解析領域の前後に付け足す長さ
-FL: カバレッジの計算する際のbinの大きさ
sortされていないデータを用いたときのエラーメッセージ
[bam_index_build2]&fail&to&index&the&BAM&file.
Error&in&FUN(X[[i]],&...)&:&failed&to&build&index
&&file:&sample.uq.bam
Calls:&headerIndexBam&...&indexBam&9>&sapply&9>&sapply&9>&lapply&9>&FUN&9>&.Call
Execution&halted
解析成功時のmessage
iu@bio[ctcf]&ngs.plot.r&9G&hg19&9R&genebody&9C&sample.uq.sort.bam&9O&CTCF.genebody&9T&CTCF&9L&3000&9FL&200
Configuring&variables...
Using&database:
/home/iu/tool/ngsplot/database/hg19/hg19.ensembl.genebody.protein_coding.RData
Done
Loading&R&libraries.....Done
Analyze&bam&files&and&calculate&coverageWarning&message:
'isNotPrimaryRead'&is&deprecated.
Use&'isSecondaryAlignment'&instead.
See&help("Deprecated")&
...................................................................................................................................
Plotting&figures...Done
Saving&results...Done
26
Wrapping&results&up...Done
All&done.&Cheers!
解析結果を比較してみよう
比較しやすいように同じplotに2つ描く
##ファイルリストを作成する&
echo&'sample.uq.sort.bam&&&&91&&"CTCF"'>list.txt
echo&'input.uq.sort.bam&91&&"Input"'>>list.txt
##ngs.plotを実行
ngs.plot.r&9G&hg19&9R&genebody&9C&list.txt&9O&CTCFandCtrlgenebody&9L&4000&9FL&200
+ Add a custom footer
© 2015 GitHub, Inc.
Terms
Privacy
Security
Contact
!
27
Status
API
Training
Shop
Blog
About
Help