現在、様々な生物においてホールゲノムショットガン配列決定法(whole genome shotgun: ゲノム全体を物理的に断片化し、シークエンサで各断片の塩基配列を決定した後、コンピューター・プログラムを用いて整理、アセンブルして完成させる手法)を用いて全ゲノム配列を決定するゲノムプロジェクトが進められています。
DDBJ/EMBL-Bank/GenBank では、そのようなゲノムプロジェクトに由来する、整理が不十分な段階の大量の DNA 断片の配列、あるいは、配列決定は完了していてもアノテーションを付与していない段階のデータを、WGS データとして受け付けています。
WGSデータの登録は 大量登録システム (MSS) で受け付けております。
WGS データとして登録可能なデータ
原則、冗長な raw read sequences ではなく、ある程度計算機処理を経た assemblies (overlapping reads) の配列を受付けます。冗長な raw read sequences を公表することが必要な場合は、DDBJ/EMBL-Bank/GenBank とは別枠のデータベースである DDBJ Trace Archive (DTA)、または、DDBJ Sequence Read Archive (DRA)をご利用ください。
論文に記載するなど、アクセッション番号とともに公表※されることが前提です
※通常の公開原則に従います。登録後に配列を即時公開する必要はありません。-
各 assembly の配列には、sequencing gap を表現する連続した"n"を含むことはできません。 -
gap を含めた連結構造、いわゆる supercontigs (assembled contigs separated by gaps)は、scaffold CON entry として上記 assemblies の連結を表現する形式で登録を受付けます。AGPフォーマットによる登録が可能です。 -
さらに上位の連結構造は、ultra-scaffold、または、chromosome CON entry として連結を表現する形式で登録を受付けます。AGPフォーマットによる登録が可能です。
-
登録に先立ち、BioProject Database へ登録し BioProject ID を取得してください。
WGS データは、登録後も、プロジェクトの進行に伴い塩基配列が更新されることを前提にしております。また、配列決定が終了していても、タンパク質コード領域 (CDS) などのアノテーションが付与されていない場合は引き続き WGS として扱います。アノテーション情報が適切に付与された後には、新規にアルファベット2文字+6桁の数字で構成されるアクセッション番号が割り当てられます。そして、organisms によって区分されている taxonomic division に移行します。
アクセッション番号の説明
WGS データに発行されるアクセッション番号はアルファベット4文字+8桁(9または10 桁になることがあります)の数字で構成されます。
例: ZZZZ01000001
- アルファベット4文字 -- プロジェクトを区別する prefix
- 2桁の数字 -- データセットのバージョン番号
- 6桁の数字 -- エントリ(各配列の)番号(エントリの数に応じて7または8桁になる場合があります)
データセットが更新されるとデータセットのバージョン番号が上がります。
例: ZZZZ02000001
WGSデータ公開形式サンプル
LOCUS ZZZZ01000001 123456 bp DNA linear HUM 01-MAY-2003 DEFINITION Homo sapiens DNA, chromosome 7, contig: A01234B01. ACCESSION ZZZZ01000001 ZZZZ01000000 VERSION ZZZZ01000001.1 DBLINK BioProject:PRJDA12345 KEYWORDS WGS. SOURCE Homo sapiens ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 123456) AUTHORS Mishima,H. and Shizuoka,T. TITLE Direct Submission JOURNAL Submitted (01-APR-2003) to the DDBJ/EMBL/GenBank databases. Contact:Hanako Mishima National Institute of Genetics, DNA Data Bank of Japan; Yata 1111, Mishima, Shizuoka 411-8540, Japan REFERENCE 2 AUTHORS Mishima,H., Shizuoka,T. and Fuji,I. TITLE Human whole genome shotgun sequence JOURNAL Unpublished (2003) COMMENT Whole genome shotgun sequencing project. FEATURES Location/Qualifiers source 1..123456 /db_xref="taxon:9606" /chromosome="7" /mol_type="genomic DNA" /note="contig: A01234B01" /organism="Homo sapiens" -- The rest is snipped -- //
