アノテーション・フィルタリング用パイプラインと クリニカルレポートの作成 フィルジェン株式会社 バイオサイエンス部 (biosupport@filgen.jp) 1 クリニカルシーケンス解析パイプライン 1. リファレンスゲノム配列への アライメント/マッピング 2. 変異の検出 3. アノテーション付けとフィルタ リング 4. レポートの作成 2 臨床現場で活用する場合は・・・ シンプルな操作性で、高度な専門知識がなくても使用できる。 データを外部サーバーにアップロードせず、ローカルコンピュータ のみで解析を行う。 検出された変異データをまとめ、疾患情報と関連付けた レポートを作成できる。 3 VarSeq® シンプルな操作で、変異データのアノテーショ ン付け、フィルタリング、データの解釈が可能 ワークフローを用いたユーザー独自の解析パ イプラインを作成可能 各種公共データベース、ユーザー独自定義 データベースによるアノテーション付け • dbSNP • ClinVar • COSMIC • 1000 Genome • NHLBI 6500 Exomes • SIFT and PolyPhen ...など 家族内サンプルを用いたトリオ解析、 がん-正常サンプルの解析に対応 各種グラフ表示機能 • • • • LD(連鎖不平衡)プロット 数値データプロット BAMファイルプロット(ゲノムブラウザー) アレル配列プロット ...など 4 製品ラインナップ OncoMD-Access VSPipeline VSReport • がん関連変異データベース • コマンドライン解析用ツール • レポート作成モジュール • 変異データへのアノテーション 付けに利用 • 複数サンプルデータのバッチ処 理に利用 • フィルタリングを行った変異デー タから、疾患レポートを作成 • 臨床試験やFDA承認薬の情 報などを含む • VarSeq®で作成したワークフ ローを実行可能 • 変異と疾患との関連付けには 、OMIMデータベースの情報を 利用 • ユーザー独自で構築したバイ オインフォマティクス解析パイプ ラインに組み込んでの使用が 可能 • 遺伝子パネルを用いた解析結 果のサマリーに有用 5 VarSeq®メイン画面 クラウドコンピューティングを利用せず、ローカルマシンで解析を実行。 シンプルなインターフェースを搭載し、直観的な操作で解析が可能。 フィルタリングワークフロー 変異データテーブル ゲノムブラウザー 6 サンプルデータのインポート VCFファイル 7 アノテーションデータのダウンロード アノテーションデータはGolden Helix社のサーバー から、データベース管理ツールを使ってダウンロード。 各アノテーションデータは、Golden Helix社によって データの精査、メンテナンスが行われている。 データは生物種ごとに分類されており、解析に使用 する生物のデータをダウンロード可能。 8 アノテーションデータ例 Annotation例 • AceViewGenes • ClinVitae • CCDS Genes • dbNSFP Functional Predictions • COSMIC Genes • dbscSNV Splice Altering Predictions • CpG Islands • dbSNP • Ensembl Genes • dbSNP Common • GenBank Genes • DGV Variants • NCBI Genes • ExAC VEP Annotations • OMIM Genes • GWAS Catalog • RefSeq Genes • NHLBI ESP6500SI-V2 Exomes Variant • 1kG Phase3 – CNVs and Large Variants 5 • SIFT Prediction for SNVs • 1kG Phase3 – Variant Frequencies 5 • PolyPhen2 • 1kG Pilot All – Low Coverage Sites • Pfam Domain Genes • ClinVar • UniProt Variants • ClinVar CNVs and Large Variants ...etc 9 フィルタリングワークフロー フィルタリング項目 初期変異データ数 各フィルタリング項目の 条件をクリアしたデータ 数 フィルタリング結果の変 異データ数 フィルタリングワークフローでは、フィルタリング項目が表示。 フィルタリング項目は自由に追加・並べ替えが可能。 フィルタリング条件を柔軟に変更し、変更結果がリアルタイムで反映される。 10 トリオ解析ワークフロー例 家族内サンプルなど、複数データを同時に比較するワークフローを組む事も可能。 11 変異データテーブル Table画面では変異のテーブルデータが表示。 テーブルデータには様々なアノテーションを追加することが可能 12 アノテーション情報 Annotation アノテーションカラムは自由に並び替えたり、表示・非表示に設定したりすることが可能。 13 変異データ詳細情報 Detail画面では各変異の詳細情報や、カテゴリー分類のヒストグラムを確認 14 グラフ表示機能 Linkage Disequilibrium(連鎖不平衡)プロット BAMファイルプロット 数値データプロット アリル配列プロット 15 解析結果画面 解析手順 1. 解析サンプルのVCFファイルをインポート 2. アノテーション付加のデータベースを選択 3. フィルタリング条件の設定 4. 解析結果の変異データの詳細を確認 16 OncoMD-Access がん研究にフォーカスした、ヒューマンキュレーションのナレッジデータベース VarSeq®からアクセスし、アノテーション 付けに使用可能 変異や遺伝子の、関連する臨床試験 やFDA承認薬、さらに薬物ターゲットなど の情報を含む 17 VSPipeline 解析作業のオートメーション化に利用 作成したワークフローのコマンドプログラムをロー ドし、複数サンプルデータのバッチ処理が可能 18 VSReport OMIMデータベースの情報に基づき、変異 または遺伝子の臨床情報とリンクしたレ ポートを作成 レポートには、サンプル情報や実験情報な ども記載し、カスタマイズも可能 19 VerSeq Viewer 無償で利用できる、専用のビューワーソフ トを使用し、解析結果の共有や視覚化が 可能 20 日本人サンプルを用いた解析例 21 日本人変異データの準備 HGVDデータベースの活用 VarSeq®では、独自フォーマットの変異データファイルのインポートにも対応し、 HGVD (http://www.genome.med.kyoto-u.ac.jp/SnpDB/index.html) などの日本人 変異データの利用が可能。 インポートした日本人変異データは、アノテーション付けやフィルタリングに利用し、サンプル変異データ から、日本人集団内で低頻度に存在する変異のみを抽出することが可能。 フィルタリングを行う際は、HGVDデータ内の変異データのサンプル数やリード深度情報も活用し、信 頼性の低い変異を除外することが可能。 22 独自フォーマットファイルのインポート テキストファイルであれば、HGVD以外にも様々なファイルをインポート可能。 23 ワークフロー例 例1: がん関連変異の検出 HGVDデータ中に高頻度で存在する変異を除去し、日本人集団内に低頻 度で存在する変異のみのデータとしたうえで、がん関連データベースCOSMIC に登録されている変異を抽出する。 HGVD • 100サンプル以上かつリード深度30以上の データを除去する。 COSMIC • データベース内に含まれるデータのみを抽出 する。 24 ワークフロー例 例2: 病原性をもつと予測される変異の検出 日本人集団内に低頻度で存在する変異のみのデータとしたうえで、タンパク 質アミノ配列に変化を及ぼす変異、さらにそれらの中から病原性をもつと推定 される変異をピックアップする。 非同義変異 • タンパク質アミノ酸配列に変化を及ぼす変異 のみを抽出する。 PolyPhen2 • 生体に有害と判定された変異のみを抽出す る。 25 ワークフロー例 例3: トリオ解析によるde Novo mutationの検出 日本人集団内に低頻度で存在する変異のみのデータとしたうえで、父親、母 親、子供のデータでトリオ解析を実行する。 トリオ解析 父親、母親、子供のデータを読み込み、アリルが 両親では変異なしのホモ、子供ではヘテロのデータ を抽出する。 26 レポート作成例 • Illumina TruSight Myeloid Sequencing Panel – Three replicates at different percentages of Horizon Dx known somatic mutations with NA12877 (increase in dilution from 10%, 25% and 50%) • Comprehensive coverage of 54 genes designed to target exons of key tumor suppressor genes and frequently cited oncogenes mutated frequently in myeloid malignancies • BAM and VCF files for each replicate are available • Targeted regions are available in a BED file • High Coverage, average read depth over the targeted regions – For the three replicate the average read depth is 2043 reads 27 レポート作成例 患者、サンプル、実験情報 パネルに含まれる遺伝子 検出された変異や遺伝子 の臨床情報 28 ソフトウェアの詳細は、以下の弊社Webサイトをご覧ください。 VarSeq®: http://www.filgen.jp/Product/Bioscience4/goldenhelix/index2.html お問い合わせ先:フィルジェン株式会社 TEL 052-624-4388 (9:00~17:00) FAX 052-624-4389 E-mail: biosupport@filgen.jp 29
© Copyright 2024 Paperzz