HOME > Hot Topics

[今月のDDBJトピック(2008/06)] 国際塩基配列データベースの総塩基数が2000億(200G)突破

DDBJ/EMBL/GenBank 国際塩基配列データベース(International Nucleotide Sequence Database, INSD)で収集・提供している塩基 (DNA, RNA) 総数が2008年5月に2000億塩基を超えました。2005年8月に1000億(100G) 塩基を超えてから僅か3年で,それまでの17年分に匹敵する登録があったという試算になります。

INSD は,その仕様を配列決定の大規模化という時代の要請に対応すべく拡張してきました。顕著な例としましては,今では当然のように使われている EST (Expressed Sequence Tags) の取り扱いに関する合意があります。1993年に EST を division として別枠に扱い始めました。2002年にはドラフト段階のゲノム,メタゲノムのデータが増大してきたため,これに対応すべくWGS (Whole Genome Shotgun) データを別枠に扱うことを開始しました。

下記の図は1000億塩基に達した2005年8月の時点と,2008年5月の時点とで塩基数の割合と塩基数を比較したものです。

base growth

グラフからも読み取ることができますように,WGS,EST /GSS(Genome Survey Sequences) ともに塩基数が3年ほどで2倍程度まで増加しており,WGS の全体に対する割合は半分以上を占めています。WGS は2002年に登録の受付を開始してから6年で1000億塩基超となっております。

そもそも,近年,急増した WGS データとはどういう性格のデータでしょうか?

WGS (Whole Genome Shotgun) という語は一般的には,ゲノム全体の配列を決定するための一手法でホールゲノムショットガン配列決定法のことを指します。インフルエンザ菌(Haemophilus influenzae) の全ゲノム配列決定で初めて成果が報告されました。この手法はゲノム全体を断片化し,塩基配列を決定した後にコンピューター・プログラムを用いて1本につなぎ直し,元のゲノム配列に再構成し完成します。
INSD においては,この手法等を用いたゲノムプロジェクトが配列を再構成する途上の段階にある断片配列のデータセットを WGS データと呼びます。

さらに高速かつ大量に配列決定を可能にする技術が急速に進歩しています。これらの技術を応用した次世代シーケンサが,おそらく数年以内に普及期に入り,配列データの増加はさらに加速すると予想されます。こうした大量のデータ登録と利用に対応するために,DDBJではデータベースシステムの高速化や,使いやすいサイト構築に力を入れています。

NCBI では,454, Solexa, SOLiD などの次世代シーケンサが出力する超大量の比較的短い配列を SRA (Short Read Archive) というカテゴリで公開し始めました。DDBJ もEBI とともに SRA にと協調していく予定です。 次世代シーケンサの普及,および,SRA の需要と関連して,多くの研究者から EST アセンブル相当の配列データを INSD で受け入れることを求められています。そこで INSD では,transcriptome project から EST アセンブル相当の配列データを受け付けるために,新規に TSA (Transcriptome Shotgun Assembly) という枠組みの準備を進めています。

さて,次に3000億塩基対を超えるのは何時のことでしょうか?

2008年2月に米国 NIH からアナウンスがあった「1000人ゲノム」プロジェクトでは,すでに2000〜3000億塩基対のヒトゲノム配列データを保有しているとも聞こえてきます。これに関連しては,配列データ増大への対応のみでは不十分な状況にあります。

ATGC の連続で表現される配列のテキストデータだけではなく,シーケンサからの出力波形などの情報も提供し,配列自体の信頼度,あるいは,多型の評価などに利用するという要求が研究者間で高まっているためです。このような波形などの情報の登録を受け付けている Trace Archive に登録されたデータは,既に数十テラ(1013,兆)バイトを超えています。DDBJ は Trace Archive に未対応でしたが,昨年度からライフサイエンス統合データベースプロジェクトの支援を受けて,ようやく国内データの試験登録に着手しました。

大規模配列解析はペタ(1015)バイトを対象とする領域に突入していく見込みです。SRA や Trace Archive を考えず,INSD に登録される配列データだけで見ましても,3年で 100G から 200G に倍増したデータ量は,今後1年半程度で 300G を遥かに超えて 400G に達する可能性が十分ありそうに思えます。

2008年6月6日