Trace Archiveは大規模なシーケンシングプロジェクトにおけるシングルパスの配列データについて、trace (クロマトグラフ) に加えて、ベースコールと品質のデータのアーカイブです。



DDBJ は長年の懸案であった Trace Archive に、昨年度下期から ライフサイエンス統合データベースプロジェクト の補完課題を受けて取組を始め、2008年7月に2件を公開するに至りました。
1. 国立遺伝学研究所 (以下、NIG) が決定した Oryzias latipes (メダカ) の WGS データに対応するトレースデータ;
NCBI によって付与される TI 番号は以下の通りです:
  • 2095022956-2095389675
  • 2095396176-2096435759
  • 2096858496-2096933759

* 関連アナウンス : メダカ strain Hd-rR の WGS 134,429 エントリと CON 6,928 エントリ、strain HNI の WGS 346,141 エントリと CON 38,235 エントリの公開

2. 東京大学(以下、UTCOB)が決定したヒト腸内微生物群の WGS データに対応するトレースデータ;
NCBIによって付与される TI 番号は以下の通りです:
  • 2097946941-2099007079


* 関連アナウンス:ヒト腸内微生物群 metagenomic WGS データ 353,805 エントリの公開

(1) WGS エントリへのアセンブル
トレースデータのサイズは以下の通りです :
(a) 約 50Gbytes (NIG から頂いたデータで、gzip 圧縮された tar ファイル形式です。.qual, peak, .seq に .scf を含んだサイズです)
(b) 約 40Gbytes (UTCOB から頂いたデータで、gzip 圧縮された tar ファイル形式です。.scf のみを含んだサイズです)
(a)と(b)のトレースデータは、両方ともアセンブルされて WGS エントリとして登録されています。
詳細は以下の通りです:
(a) は当初のアセンブルの結果、BAAF の WGS エントリの一部になりました。(フラットファイルを gzip 圧縮した tar ファイル形式で、約 309M bytes あります)。 (a) はさらにアセンブルされて DG000001-DG000024 の染色体情報になっています。
詳細な情報については、メダカゲノムプロジェクトホームページ をご覧ください。
(b) はアセンブルされた結果、BAAU-BABG の WGS エントリになりました。(フラットファイルを gzip 圧縮した tar ファイル形式で、約 272M bytes あります)。
(2) ファイル転送について
当初、NCBI にデータをアップロードするのに FTP を直列に実行する方法をとっていましたが、これですと NCBI へファイルを転送するのに多大な時間をとってしまうことがわかりました。

そこで、大きなファイルを高速で転送する手法を調査した結果、今回は複数のファイルを転送するのに、FTP を並列に実行することで対応を行いました。

当初の想定では、ファイル全体を転送するのに丸 2 日かかる見込みでしたが、最終的には数時間程度で転送を完了することができる様になりました。

今回、上記 2 件のデータは NCBI の Trace Archive から検索可能となっております。DDBJ では、さらにこれらのデータを独自に公開するサービスを行う準備を始めております。