Whole Genome Shotgun (WGS) 配列データについて

現在、様々な生物においてホールゲノムショットガン配列決定法(whole genome shotgun: ゲノム全体を物理的に断片化し、シークエンサで各断片の塩基配列を決定した後、コンピューター・プログラムを用いて整理、アセンブルして完成させる手法)を用いて全ゲノム配列を決定するゲノムプロジェクトが進められています。

DDBJ/EMBL-Bank/GenBank では、そのようなゲノムプロジェクトに由来する、整理が不十分な段階の大量の DNA 断片の配列、あるいは、配列決定は完了していてもアノテーションを付与していない段階のデータを、WGS データとして受け付けています。

公開されているWGSデータ

WGSデータの登録は Mass Submission System (MSS) で受け付けております。

WGS データとして登録可能なデータ

原則、冗長な raw read sequences ではなく、ある程度計算機処理を経た assemblies (overlapping reads) の配列を受付けます。冗長な raw read sequences を公表することが必要な場合は、DDBJ/EMBL-Bank/GenBank とは別枠のデータベースである DDBJ Trace Archive (DTA)、または、DDBJ Sequence Read Archive (DRA)をご利用ください。

  • 論文に記載するなど、アクセッション番号とともに公表されることが前提です
        通常の公開原則に従います。登録後に配列を即時公開する必要はありません。
  • 各 assembly の配列には、sequencing gap を表現する連続した"n"を含むことはできません。
  • gap を含めた連結構造、いわゆる supercontigs (assembled contigs separated by gaps)は、scaffold CON entry として上記 assemblies の連結を表現する形式で登録を受付けます。AGPフォーマットによる登録が可能です。
  • さらに上位の連結構造は、ultra-scaffold、または、chromosome CON entry として連結を表現する形式で登録を受付けます。AGPフォーマットによる登録が可能です。
  • 登録に先立ち、BioProject Database へ登録し BioProject ID を取得してください。

WGS データは、登録後も、プロジェクトの進行に伴い塩基配列が更新されることを前提にしております。また、配列決定が終了していても、タンパク質コード領域 (CDS) などのアノテーションが付与されていない場合は引き続き WGS として扱います。アノテーション情報が適切に付与された後には、新規にアルファベット2文字+6桁の数字で構成されるアクセッション番号が割り当てられます。そして、organisms によって区分されている taxonomic division に移行します。

アクセッション番号の説明

WGS データに発行されるアクセッション番号はアルファベット4文字+8桁(9または10 桁になることがあります)の数字で構成されます。

: ZZZZ01000001

アルファベット4文字 -- プロジェクトを区別する prefix
2桁の数字 -- データセットのバージョン番号
6桁の数字 -- エントリ(各配列の)番号(エントリの数に応じて7または8桁になる場合があります)

データセットが更新されるとデータセットのバージョン番号が上がります。
: ZZZZ02000001

WGSデータ公開形式サンプル

LOCUS       ZZZZ01000001        123456 bp   DNA    linear  HUM 01-MAY-2003
DEFINITION  Homo sapiens DNA, chromosome 7, contig: A01234B01.
ACCESSION   ZZZZ01000001 ZZZZ01000000
VERSION     ZZZZ01000001.1
DBLINK      BioProject:PRJDA12345
KEYWORDS    WGS.
SOURCE      Homo sapiens
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 123456)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (01-APR-2003) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Human whole genome shotgun sequence
  JOURNAL   Unpublished (2003)
COMMENT     Whole genome shotgun sequencing project.
FEATURES             Location/Qualifiers
     source          1..123456
                     /db_xref="taxon:9606"
                     /chromosome="7"
                     /mol_type="genomic DNA"
                     /note="contig: A01234B01"
                     /organism="Homo sapiens"

-- The rest is snipped --
// 

ページの先頭へ戻る