非コード領域の配列モチーフ検出システムの構築とそれに基づく ゲノム

公募研究:2008 ∼ 2009 年度
非コード領域の配列モチーフ検出システムの構築とそれに基づく
ゲノムアノテーション
●須山 幹太
京都大学大学院医学研究科
2.データ視覚化ツールの開発
<研究の目的と進め方>
Adam Siepel らによって開発されたアライメント中での保存部
ゲノム中には遺伝子コード領域の他に、遺伝子発現制御のため
の配列モチーフ(転写因子結合部位など)が存在する。これらの
位評価法である
モチーフは比較的短い配列であるため、ゲノム中でのアノテー
15:1034-1050.] の結果を大量に一括して視覚化するプログラムを
[A. Siepel
. (2005)
.
ション(同定・分類)が困難な領域である。現在、多種多様な動
開発した(図1)。視覚化することで、各モチーフの保存の程度
物ゲノム配列決定が急速に進んでいることから、比較ゲノム解析
とゲノム上近傍に位置する遺伝子や他の保存部位との関係が容易
による局所的な配列保存度合の評価から、非コード領域に存在す
に把握できるようになった。
る配列モチーフを解析することが可能な段階になってきた。これ
大規模データの解析において、適切な視覚化を施すことにより
を踏まえ、本研究は、動物ゲノムを対象に、これらの配列モチー
その解釈が容易になることが多い。そのための様々なプログラム
フ同定のための解析システムを構築し、得られたモチーフのゲノ
を開発してきた。その中心となるのは、ゲノム配列に沿って様々
ム中での高精度なアノテーションを網羅的に行なうことで、遺伝
は情報を同時に表示することで、次に挙げるような属性を表示す
子発現制御についての理解を深めることを目的としている。
ることが可能となった:(1)他の生物種とのアライメントのカ
(3)
ラー表示、
(2)phastCons による保存の度合いのグラフ化、
<研究開始時の研究計画>
遺伝子構造情報、(4)ChIP-seq から得られる配列フラグメント
1.計算機環境の構築とプログラムの整備
の分布および peak calling の結果。それ以外の属性も容易に追加
非コード領域の配列モチーフの同定にはゲノム配列アライメン
することができる拡張性を備えている。
トを活用するが、それは膨大なデータであるため、その解析には
同様な表示は UCSC のゲノムブラウザでも可能であり、特に
比較的記憶容量とメモリーの大きな計算機が必要である。まずそ
様々なスケールで視覚化するといったズーム機能は共通である。
のための計算機環境を構築する。また、このゲノム配列アライメ
しかし明確な相違点も存在する。たとえば、UCSC ゲノムブラウ
ントを解析するには専用のプログラムを開発する必要がある。既
ザはインターラクティブに操作するものであるため、個別の領域
に基本的な部分のプログラム開発をおこなっており、本年度はそ
を詳細に検討するには向いているが、多数の領域を一度に眺める
のプログラムを完成させ、さらに、より汎用性のあるものへの拡
のには適さない。一方、本研究で開発した視覚化ツールは多数の
張を計画している。
領域の一覧をプリント出力するので、総体として概観し、それぞ
れの領域に共通している性質などを把握するのに適している。こ
2.モチーフの検出およびアノテーション
既にモチーフ検出のためのプログラムは複数開発されており、
本研究では、それらを使用する。モチーフ検出の対象とするゲノ
こで開発したプログラムは他の様々な研究にも適用できる汎用性
を持ったものである。
ムは、昆虫や脊椎動物など、すでに複数の近縁種ゲノムが決まっ
ているものが考えられるが、本年度はまず脊椎動物を対象とした
解析を行なう。実際に新規モチーフを検出するには、モチーフ検
出プログラムのパラメータを検討する 必要がある。そこで、まず
既知モチーフの検出能力を指標に、パラメータの最適化を行な
図1.あるゲノム領域における遺伝子の構造とChIP-seqのタグ配
う。次に、得られたモチーフについて、ゲノムアライメント中で
列の分布、およびゲノムアライメント中での保存度合いの視覚化
の保存度合を評価することで、ゲノム配列中での確度の高いアノ
の例.
テーション(同定・分類)を行なう。
3.新規モチーフ同定
また、マイクロアレイのデータをもとにした解析から、コアプ
<研究期間の成果>
ロモータ領域に存在する新規モチーフの同定に成功した。これは
1.ゲノムアライメント操作のためのプログラムの開発
これまでにゲノムアライメントから任意の部位での部分アライ
本研究遂行のためのパイロットスタディーと捉えることができ
メントを高速に抽出するためのプログラム開発を行なってきた。
る。そのモチーフをヒトゲノム中に検索し、1000 以上の遺伝子
その核となる部分は既に完成している。具体的には、アライメン
の上流に存在することを明らかにした。さらに、そのモチーフに
トとして University of California, Santa Cruz (UCSC) の Genome
相当する領域のゲノムアライメントの解析から、そのモチーフ
Browser より MAF 形式で提供されているゲノムアライメントを
が、哺乳類だけでなくニワトリやゼブラフィッシュを含めた脊椎
使用した。このアライメントを自作プログラムによりインデック
動物にも高頻度に存在することを見出した。
さ ら に、 あ る 遺 伝 子 に 的 を 絞 っ た 詳 細 な 解 析 と し て、
ス化することで、任意の部位および生物種のアライメントが瞬時
に取得できるようになった。これによりゲノムアライメントをも
peripheral myelin protein 22 (
とにした、
非コード配列モチーフの大規模な解析が可能となった。
因子の解析を行なった(論文1)。この遺伝子は正常なミエリン
) の発現制御に関与するシス
の形態形成において重要な役割を担っており、その発現レベルの
− 284 −
異常が、たとえば Charcot-Marie-Tooth disease type 1A (CTM1A)
ンでもあるため、ゲノム中でのアノテーションが困難は領域であ
といった神経疾患を惹き起こしていることが知られている。我々
る。そのため、調節領域の違いに着目した生物種の比較は、これ
はメダカをモデルとし、その遺伝子の構造が哺乳類のそれと同じ
までのところ困難であった。
を過剰発現
一方、ゲノムワイド関連解析の結果を見ても、患者群で統計的
させると、哺乳類で見られるのと同じような、神経伝達速度の遅
に有意な多型マーカーが、遺伝子がまったく存在しない連鎖不平
ことを実験的に決定した。またメダカにおいて
延が観測された。さらに、脊椎動物間での比較ゲノム解析から、
衡ブロックに見られることがしばしばある。このことは機能上重
メダカと哺乳類の間で保存されている非コード領域モチーフを新
要な変異が遺伝子コード領域以外にも多数存在することを示して
たに2つ見出した。これらのモチーフが
いる。最近のゲノムワイド関連解析のデータベースを用いた見積
の発現制御に関与
もりによると、少なくとも約40%の変異が遺伝子コード領域外
していることが示唆される。
にありそうなことが示されている(Visel
4.ChIP-seqのデータとゲノムアライメントの保存度合いを融合
distant-acting enhancers",
することによるシス因子の高精度アノテーション
. "Genomic views of
461, 199-205 (2009))。
このようなことからも、非コード領域の機能性配列モチーフを
ChIP-seq のデータとゲノムアライメント中での保存をマージ
同定することの重要性は高まっていると言える。そこで、ChIP-
した高精度アノテーションを検討した。ChIP-seq データは論文
seq とゲノムアライメントの保存度合いを融合したデータから、
に発表され公開されているものを用いた。タグ配列をゲノム上に
確度の高いシス因子を網羅的に収集し、その中で種間で差のある
マップしたものに対し、peak calling プログラムを適用すること
ものの探索をおこなった。その中でも、転写因子結合部位の欠失
で有意なピークを同定した。その各ピークについて、対応するゲ
というような劇的な変化を示す領域が複数見つかった。一つはイ
ノムアライメントを参照し、ピークに対応する位置にあり、かつ、
ルカやウシに見られる欠失で、これらは共通の系統なので、共通
生物種間で保存した配列モチーフを検索した(図2)。
祖先において欠失が起きたを考えられる(図3)。また、複数の
系統での欠失であるので配列決定時のエラーである可能性は限り
なく低いと言える。
図3.共通の系統に見られる転写因子結合部位の欠失。予測さ
れた転写因子結合部位をアライメントの上部に # で示す。
図2.ChIP-seq データのピーク位置に見られる保存モチーフ
また、非常に興味深いものとしては、霊長類のある種だけで転
の例。ボックス中に保存の度合いを示す。ボックス上部の中心に
写因子結合部位が欠失しているものがあった ( 図4)。霊長類ゲノ
モチーフを表示し、遺伝子があれば、その構造も表示した。
ムはすでに複数決定されているが、ある1種だけに見られる欠失
ということは、これが比較的最近におこったイベントであること
配列の保存だけでは、そのパターンが短いため、多くの疑陽性
を示している。このような欠失がその種を特徴付ける性質に結び
が検出されてしまうという問題が存在するが、ChIP-seq のよう
つくものかどうかは大変興味深く、その解明にはさらなる詳細な
なゲノムワイドなタンパク質ー DNA 相互作用のデータと合わせ
解析が必要である。
ることで、疑陽性を大幅に減らしことが可能になったと考えられ
る。興味深いことに、ピーク中にモチーフが存在した場合、それ
らは、局所的に保存したパターンであることが多い。このことか
らも、その部位がシス因子である可能性が非常に高いと言える。
また、部位によっては ChIP-seq では結合部位と判断されヒトゲ
ノム中でのモチーフ配列が観測されるが、哺乳類全体では対応す
る位置にモチーフが保存していない場合がある。これらはおそら
く種特異的なモチーフであると考えられる。
図4.霊長類(メガネザル;Tarsier)に特異的な転写因子結
合部位の欠失.予測された転写因子結合部位をアライメントの上
5.種特異的な転写因子結合部位の欠失の検出
生物種の違いをゲノム中に見出すことは、多くの人の興味を誘
部に # で示す。
うテーマで、それについての研究はこれまでにも数多くおこなわ
れてきた。これまでは遺伝子コード領域の差に着目した解析が主
6.新規モチーフがトランス因子の結合部位であることの実験的
におこなわれてきた。なぜなら、cDNA や EST の情報から、遺
証明
伝子構造は比較的容易に同定でき、それらを生物種間で比較する
ゲノムアライメント中での保存を指標にしたモチーフ探索によ
だけだからである。しかし、遺伝子発現の調節領域は比較的短い
り、ゲノム中の複数の部位に見られるモチーフを収集した。その
パターンであり、しかもある程度の変異が許容された弱いパター
中から、JASPAR や文献と比較し、新規モチーフと考えられる
− 285 −
ものについて詳細な解析をおこなった。まず、ここで選んだ新規
は至っていない。しかし、当初の目的であった高精度なアノテー
モチーフの近隣遺伝子について、GO term の頻度を検討したが、
ションとしては、ChIP-seq のデータの活用が大変役に立ったと
それらの遺伝子に共通な属性は見いだされなかった。また、その
考えている。
新規モチーフと近隣遺伝子の位置関係も様々であり、プロモー
ターである可能性は低いと考えられた。次に、その新規モチーフ
<今後の課題、展望>
が実際にあるタンパク質の認識配列となっているかどうかを、ゲ
すでに計算資源や基礎となるデータが揃っているので、引き続
ルシフトアッセイにより実験的に検証した。マウスの様々な組織
きシス因子のアノテーションをおこない、データベースの構築・
サンプルで実験をおこなったところ、特に骨髄細胞の核抽出物で
公開を目指したい。
顕著なゲルシフトが観測された。このことから、この新規モチー
シス因子の高精度なアノテーションにおいて、複数のゲノムス
フは実際にあるタンパク質の認識配列であると考えれらた。ま
ケールの大規模データ解析を融合することの有用性は、これまで
た、そのタンパク質は骨髄で強く発現していると言える。膵臓な
示してきた ChIP-seq 法とゲノムアライメントによるものだけで
どの他の臓器でも弱いながらゲルシフトが観測された。現在、質
はない。たとえば、ChIP-seq 法とゲノムアライメントだけから
量分析によるその結合タンパク質、すなわちトランス因子の同定
は、ゲノム配列中でどこが真の転写因子結合部位であるかを高精
を検討している。また、各組織での発現パターンをもとにしたデー
度で明らかにすることが可能であるが、その転写因子結合部位が
タベース解析からも、このタンパク質が何であるかの絞り込みが
どの遺伝子を制御しているかの情報は得られない。これは、先に
おこなえるものと考えている。
も述べたとおり、エンハンサーは必ずしも転写開始点のすぐ上流
<国内外での成果の位置づけ>
や下流に存在することもあるからである。場合によっては、また、
に存在するわけではなく、ターゲットとなる遺伝子の数 kb 上流
5年ほど前までは、マイクロアレイの共発現データをもとにし
遺伝子構造に対する相対的な位置も様々で、下流に存在する別の
た新規モチーフの探索が盛んで、そのためのアルゴリズムも盛ん
遺伝子のイントロン中にターゲットとなる遺伝子のエンハンサー
に開発されてきた(Tompa
が存在する例も知られている。このように遠距離で働くことがで
., "Assessing computational tools
for the discovery of transcription factor binding sites",
きるため、エンハンサーとなる配列がわかっても、それがどの遺
. 23, 137-144 (2005))。しかし、近年、ゲノムアライメント
伝子の発現を制御しているかを困難である。そのためには、他の
や次世代シーケンサーによる ChIP-seq 法の登場により、シス因
情報、たとえば遺伝子発現に関する情報が不可欠である。それに
子の同定からゲノム中でのアノテーションへと、問題の変化が起
はマイクロアレイのデータや RNA-seq のデータが有用であると
きているように見受けられる。ゲノム中でのシス因子のアノテー
考えられる。
ションに主眼を置いた本研究は、その時代の流れに対応したもの
であると言える。
また、それ以外にも、実験的な解析手法の進展は目を見張るも
のがあり、それら多様なデータを統合して解析することで、非コー
平成21年3月6−8日にドイツ・ハイデルベルクで開催され
ド領域モチーフの解析がさらに進むと考えられる。特に、遠距離
たれた "Frontiers in Bioinformatics" に参加し、現在おこなって
で働くエンハンサーの同定は重要な課題で、その意義や現在の状
いるシス因子のゲノムワイドな同定について発表した。このミー
況がごく最近発行された Nature のレビューによくまとめられて
ティングには主にヨーロッパの若手グループリーダーが集まり、
いる(Visel
, "Genomic views of distant-acting enhancers",
各自がおこなっている最新の解析について議論した。20名程度
461, 199-205, (2009))。このことからもわかる通り、非コー
のグループリーダーのみによる会合であったため、進行中の最新
ド領域モチーフの解析と同定は今後ますます重要性を増すと考え
の解析などの情報を得ることができ、本研究の遂行において参考
られる。
となる事象が多く、大変有益であった。本研究に対しても、イギ
前項目においても述べたが、次世代シーケンサーを用いた
リス・オックスフォード大学の Richard R. Copley やスペイン・
ChIP-seq 法による転写因子結合部位の解析により、それらシス
バルセロナ大学の David Torrents らから有益なコメントをいただ
因子のゲノムワイドな分布が得られるようになった。それ以前に
いた。特に David Torrents のグループがおこなっている研究と
も、マイクロアレイを用いた ChIP-chip 法が存在したが、特に分
は、手法は異なるものの対象としている問題が非常に近いため、
解能の点において、ChIP-seq 法のほうが優れている。次世代シー
お互いに情報を共有し、今後共同研究を進めることで話がまと
ケンサーの普及にともない、ChIP-seq 法による転写因子結合部
まった。
位のゲノムワイドな分布の情報が今後一層増加することが考えら
れる。
さらに、シス因子の同定・アノテーションにおいて、他にも有
<達成できなかったこと、予想外の困難、その理由>
次世代シーケンサーを用いた解析の進展は目覚ましいものがあ
用な実験手法が開発されてきている。たとえば、オープン・クロ
る。メタゲノム解析やリシーケンスへの適用だけではなく、クロ
マチンのマーカーである DNase I と ChIP-seq をカップルさせた
マチン免疫沈降と組み合わせた、いわゆる ChIP-seq 法への応用
方法により、転写因子の種類よらない、ゲノムワイドなシス因子
は、ゲノムワイドな転写因子結合部位の分布を得る上での画期的
候補領域の同定が可能となっている。その他の有益な情報をもた
方法で、その手法による解析の報告が増えている。当初、本研究
らす手法として Chromosome Conformation Capture (3C) に代表
では次世代シーケンサーのデータの活用は考慮しておらず、ゲノ
される、染色体間および染色体内の空間的距離に関する解析法が
ムアライメントのみで、シス因子のゲノムワイドなアノテーショ
ある。
ンをおこなう予定であった。しかし、研究を進めていくうちに、
その他にも、ゲノムワイド関連解析の目覚ましい発展にともな
次世代シーケンサーによる ChIP-seq のデータが多く公表され、
い、SNP データの蓄積の増加も顕著で、そのデータも有効に活
用できると考えている。すなわち、シス因子は機能的に重要なた
それを融合する方向に研究の方向を修正した。
高精度なシス配列のアノテーションをおこない、最終的にはそ
め、たの非コード領域に比べ、負の淘汰が強く働いていると考え
れらについてのデータベースを構築・公開する予定であった。し
られる。だとすると、その部位では SNP は観測されにくいはず
かし、上記の軌道修正も一因となり、まだデータベースの公開に
である。SNP データが蓄積し、ゲノム中での密度が高くなるに
− 286 −
つれて、シス因子の候補について、SNP が存在しないことによ
る傍証が得られると考えられる。
これら複数のゲノムワイドな異種データを融合して解析するこ
とが今後の大きな課題である。
<研究期間の全成果公表リスト>
1)論文
1. 0912011928
Itou J., Suyama M., Imamura Y., Deguchi T., Fujimori K.,
Yuba S., Kawarabayasi Y. and Kawasaki T.: Functional and
comparative genomics analyses of pmp22 in medaka fish, BMC
Neuroscience, 10, 60 (2009).
2)学会発表
1.伊東潤二、須山幹太、
「新規転写因子結合部位の検出とアノテー
ション」、特定領域研究「比較ゲノム」情報系研究会、2008
年 6 月 13 日、九州大学.福岡
2.Itou J., Suyama M., Imamura Y., Deguchi T., Fujimori K.,
Kawasaki T., Yuba S. and Kawarabayasi Y., "Evolutionary
conservation of peripheral myelin protein 22 gene in
vertebrate", 8th EMBL Transcription Meeting, 2008 年 8 月
24 日、European Molecular Biology Laboratory, Heidelberg,
Germany.
3.Itou J., Suyama M., Imamura Y., Deguchi T., Fujimori K.,
Kawasaki T., Yuba S. and Kawarabayasi Y., "Evolutionary
conservation of peripheral myelin protein 22 gene in
vertebrate", The Eighth NIBB-EMBL Joint Meeting
Evolution: Genomes, Cell Types and Shapes, 2008 年 11 月 21
日、基礎生物学研究所、岡崎、愛知.
4.Suyama M., "Identification of transcription factor binding
sites by comparative genomics approach", Frontiers in
Bioinformatics, 2009 年 3 月 7 日、Conference Room in Hotel
zum Ritter, Heidelberg, Germany.
5.Itou J., Suyama M., Fujimori K., Kawasaki T., Yuba S.,
"Conserved regulatory elements of pmp22 gene between fishes
and mammals", 第31回日本分子生物学会年会・第81回日本
生化学会大会 合同大会、2008 年 12 月 10 日、神戸ポートア
イランド、神戸、兵庫.
6.伊東潤二、須山幹太、今村行雄、出口友則、藤森一浩、川崎
隆史、弓場俊輔、河原林裕、「末梢ミエリンにおけるメダカ
peripheral myelin protein 22 遺伝子の解析」、日本分子生物学
会第 9 回春季シンポジウム、2009 年 5 月 11 日、シーガイア・
ワールドコンベンションセンター・サミット、長崎.
7.Suyama M., "Identification of cis-regulatory elements by
using genome alignment and high-throughput data", The 4th
Global COE International Symposium 2009 joint with the 19th
Hot Spring Harbor Symposium "Molecular Evolution and
Bioinformatics", 2009 年 11 月 2 日、九州大学、福岡.
− 287 −