2014年12月29日月曜日

ゲノムシークエンスのギャップを埋めていく努力:nature

今年は私の興味に引っかかってくる論文がとても少なくて残念な年であった。(「おめーが段々ずれてきているだけだよ・・・」といわれるそこの貴方、あなたが全く正しいかもしれない今日この頃である)

 そんな中ヒトゲノムマップに残されたギャップを潰す試みをまとめた論文が最近natureに出た。

Nature (2014)

Received 03 July 2014 
Accepted 30 September 2014 
Published online 10 November 2014

Resolving the complexity of the human genome using single-molecule sequencing 

 Mark J. P. Chaisson, John Huddleston, Megan Y. Dennis,Peter H. Sudmant,Maika Malig, Fereydoun Hormozdiari, Francesca Antonacci, Urvashi Surti, Richard Sandstrom,Matthew Boitano,Jane M. Landolin,John A. Stamatoyannopoulos, Michael W. Hunkapiller, Jonas Korlach & Evan E. Eichle

The human genome is arguably the most complete mammalian reference assembly, yet more than 160 euchromatic gaps remain, and aspects of its structural variation remain poorly understood ten years after its completion. To identify missing sequence and genetic variation, here we sequence and analyse a haploid human genome (CHM1) using single-molecule, real-time DNA sequencing. We close or extend 55% of the remaining interstitial gaps in the human GRCh37 reference genome—78% of which carried long runs of degenerate short tandem repeats, often several kilobases in length, embedded within (G+C)-rich genomic regions. We resolve the complete sequence of 26,079 euchromatic structural variants at the base-pair level, including inversions, complex insertions and long tracts of tandem repeats. Most have not been previously reported, with the greatest increases in sensitivity occurring for events less than 5 kilobases in size. Compared to the human reference, we find a significant insertional bias (3:1) in regions corresponding to complex insertions and long short tandem repeats. Our results suggest a greater complexity of the human genome in the form of variation of longer and more complex repetitive DNA that can now be largely resolved with the application of this longer-read sequencing technology.


 ゲノムプロジェクトが終了して(公的にクリントンが終了)10年が経つが、いまだ正確には人1人の完璧なゲノムシークエンス情報は知られていないのが現実だ。いまだに染色体は1本に繋がっていない。当たり前じゃないか、テロメアやセントロメアの反復配列につきあっているヒマはないんだ、意味ないし、といわれるそこの貴方。貴方はよほどひねているか、あるいはロマンが足りない。 

一番染色体を想像してみてほしい。一番染色体は端から端まで二本鎖DNAが延々と伸びている構造をしている(はずだ)。短腕のテロメアの端から反復配列が延々と続き、やがて最初の遺伝子構造が現れる。しばらく無意味な配列が続き次いで二番目の伝子構造が現れる。そのうち再び反復配列の森林に入り込むがこれがセントロメア配列である。どれくらいの長さ続くのか判然としないが動原体がくっつく部分を越えて長腕側に移りしばらくセントロメア配列が続いたのちに長腕最初の遺伝子が始まり延々と遺伝子が続き長腕最後の遺伝子が現れた後にテロメア反復が続いて一番染色体は終わる。 

この一連の配列にはいまだに配列構造が判明していない欠落部分がいくつも存在するのである。ここがなかなか埋められないのはシークエンスが難しいからだとされる。ゲノム全体ではユークロマチン領域に限定しても160カ所の欠落部分が存在するとされる。(ヘテロクロマチンの欠落は言わずもがなである)

 ゲノムシークエンスが技術的に困難な理由はいくつか知られているが、(1)サブクローンが取れないこと(2)反復配列の存在、は広く知られている。サブクローンとは数百キロbpのヒトゲノムDNAフラグメントが入ったクローニングベクターのことである。サンガーシークエンス(あるいはBAC、 PAC contigでゲノムを橋渡ししながら繋いでいく)するためにはこれを大腸菌で増やさなくてはいけないのだが、大腸菌に害毒を及ぼすシークエスというものがあるらしく、そういった遺伝子を含むクローンは増殖できないのだと説明されている ( toxic cloneの存在)。一方(2)反復配列は数百bp~数キロbpの単位で反復するが、これがシークエンスの端にあるとシークエンスやPCRが不可能となる。特異的にシークエンス開始点を決められない。ヒト染色体は2本あるが、反復配列のタンデムコピー数が違ったりすると全くシークエンスができない。かりにシークエンスできてもアラインメントが取れない。

今回の報告ではそのディプロイド性からくる複雑性を回避するためにハプロイドゲノムでしかも増幅可能なヒト絨毛性腫瘍細胞株(hydatidiform mole:胞状奇胎)をターゲットに選んでいる。 胞状奇胎とは脱核(あるいは核の不活化)した卵子に精子入り込み疑似受精が始まりハプロイドで細胞増殖が進みおおきくなる婦人科腫瘍である。(ブラックジャックのピノコは胞状奇胎由来だったはずだ。) この腫瘍から取られた細胞株があり、これは当然ハプロイド(精子由来)だからテンプレートとしてシークエンスがやりやすいのだ。 ターゲットはユークロマチンであるが、これで160カ所のうち60カ所以上が今回解決した。それでもあと100カ所以上のギャップがあるのだという。 

このような地道な努力には頭を下げたい。埋まってしまえばたわいもない構造・・・も多いのだが、いまだ未知のジャングルが残っているというのは、ロマンではあるが、掻靴掻痒でもある。早く決めてしまってください。

シークエンスレベルで最初の染色体構造が完成する日が訪れることを祈りたい。

追記:

最終著者の講演動画です。Evan Eichler, PhD / Howard Hughes Medical Institute, University of Washington

http://aa314.gondor.co/webinar/resolving-complexity-of-the-human-genome/

0 件のコメント: