最終更新日:2016.1.19.

Whole Genome Shotgun (WGS) 配列データについて

現在、様々な生物においてホールゲノムショットガン配列決定法(whole genome shotgun: ゲノム全体を物理的に断片化し、シークエンサで各断片の塩基配列を決定した後、コンピューター・プログラムを用いて整理、アセンブルして完成させる手法)を用いて全ゲノム配列を決定するゲノムプロジェクトが進められています。

DDBJ/EMBL-Bank/GenBank では、そのようなゲノムプロジェクトに由来する、整理が不十分な段階の大量の DNA 断片の配列を、WGS データとして受け付けています。
INSDC standards for genome assembly submissionもご参照ください。

公開されているWGSデータ

WGSデータの登録は Mass Submission System (MSS) で受け付けております。

WGS データとして登録可能なデータ

原則、冗長な raw read sequences ではなく、ある程度 計算機処理を経た contigs (overlapping reads) の配列を受付けます。冗長な raw read sequences を公表することが必要な場合は、DDBJ/EMBL-Bank/GenBank とは別枠のデータベースである DDBJ Trace Archive (DTA)、または、DDBJ Sequence Read Archive (DRA)をご利用ください。

登録に先立ち、BioProject DatabaseBioSample Database への登録が必要です。
assembly 過程を表現する WGS の登録には2種類の方法があります。
a) WGS + scaffold CON:

  • 各 contig (overlapping reads) の配列を WGS entry として登録します。
  • WGS 配列には sequencing gap を表現する連続した"n"を含むことはできません。
  • gap を含めた連結構造の記載が必要な場合、AGP ファイルによる登録が可能です。scaffold (assembled contigs separated by gaps) を CON entry として WGS の連結を表現する形式で登録を受付けます。
b) WGS with gaps:

  • 各 scaffold (assembled contigs separated by gaps) の配列を WGS entry として登録します。
  • sequencing gap を連続した"n"として WGS 配列に含めて記載します。
  • AGP ファイルは必要ありません。

WGS データは、登録後も、プロジェクトの進行に伴い塩基配列が更新されることを前提にしております。
配列決定が終了した後には、新規にアルファベット2文字+6桁の数字で構成されるアクセッション番号が割り当てられます。
そして、organisms によって区分されている taxonomic division に移行します。

アクセッション番号の説明

WGS データに発行されるアクセッション番号はアルファベット4文字+8桁(9または10 桁になることがあります)の数字で構成されます。

: ZZZZ01000001

アルファベット4文字 -- プロジェクトを区別する prefix
2桁の数字 -- データセットのバージョン番号
6桁の数字 -- エントリ(各配列の)番号(エントリの数に応じて7または8桁になる場合があります)

データセットが更新されるとデータセットのバージョン番号が上がります。
: ZZZZ02000001

WGSデータ公開形式サンプル

LOCUS       ZZZZ01000001        123456 bp   DNA    linear  HUM 01-MAY-2003
DEFINITION  Homo sapiens DNA, chromosome 7, contig: A01234B01.
ACCESSION   ZZZZ01000001 ZZZZ01000000
VERSION     ZZZZ01000001.1
DBLINK      BioProject:PRJDA12345
            BioSample:SAMD01234567
            Sequence Read Archive:DRR012345, DRR012346
KEYWORDS    WGS.
SOURCE      Homo sapiens
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 123456)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (01-APR-2003) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Human whole genome shotgun sequence
  JOURNAL   Unpublished (2003)
COMMENT     Whole genome shotgun sequencing project.
FEATURES             Location/Qualifiers
     source          1..123456
                     /db_xref="taxon:9606"
                     /chromosome="7"
                     /mol_type="genomic DNA"
                     /note="contig: A01234B01"
                     /organism="Homo sapiens"

-- The rest is snipped --
// 

ページの先頭へ戻る