DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 登録の見本
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • CON
    • GSS
    • HTG
    • Environmental sequence の登録
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • WGS

WGS

様々な生物においてホールゲノムショットガン配列決定法(whole genome shotgun: ゲノム全体を物理的に断片化し、シークエンサで各断片の塩基配列を決定した後、コンピューター・プログラムを用いて整理、アセンブルして完成させる手法)を用いて全ゲノム配列を決定するゲノムプロジェクトが進められています。

DDBJ/ENA/GenBank では、そのようなゲノムプロジェクトに由来する、整理が不十分な段階の大量の DNA 断片の配列を、WGS データとして受け付けています。
INSDC standards for genome assembly submissionもご参照ください。

公開されているWGSデータ

WGSデータの登録は Mass Submission System (MSS) で受け付けております。

WGS データとして登録可能なデータ
原則、冗長な raw read sequences ではなく、ある程度 計算機処理を経た contigs (overlapping reads) の配列を受付けます。冗長な raw read sequences を公表することが必要な場合は、DDBJ/ENA/GenBank とは別枠のデータベースである DDBJ Sequence Read Archive (DRA)をご利用ください。
  • 登録に先立ち、BioProject Database と BioSample Database への登録が必要です。
  • assembly 過程を表現する WGS の登録には2種類の方法があります。
    a) WGS + scaffold CON:
    各 contig (overlapping reads) の配列を WGS entry として登録します。
    WGS 配列には sequencing gap を表現する連続した"n"を含むことはできません。
    gap を含めた連結構造の記載が必要な場合、AGP ファイルによる登録が可能です。
    scaffold (assembled contigs separated by gaps) を CON entry として WGS の連結を表現する形式で登録を受付けます。
    b) WGS with gaps:
    各 scaffold (assembled contigs separated by gaps) の配列を WGS entry として登録します。
    sequencing gap を連続した"n"として WGS 配列に含めて記載します。
    AGP ファイルは必要ありません。

DDBJ フォーマットの例

WGS エントリの特徴

  • アクセッション番号 は アルファベット 4 文字と数字 8 桁 を基本とします。
  • KEYWORDS 行には “WGS” とゲノムとしての完成度を示す規定値が表示されます。
LOCUS       ZZZZ01000001              123456 bp    DNA    linear   HUM 01-MAY-2003
DEFINITION  Homo sapiens DNA, chromosome 7, A01234B01. 
ACCESSION   ZZZZ01000001 ZZZZ01000000
VERSION     ZZZZ01000001.1
DBLINK      BioProject:PRJDA12345
            BioSample:SAMD01234567
            Sequence Read Archive:DRR012345, DRR012346
KEYWORDS    WGS; STANDARD_DRAFT.
SOURCE      Homo sapiens
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 123456)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (01-APR-2003) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Human whole genome shotgun sequence
  JOURNAL   Unpublished (2003)
COMMENT     Whole genome shotgun sequencing project.
FEATURES             Location/Qualifiers
     source          1..123456
                     /db_xref="taxon:9606"
                     /chromosome="7"
                     /mol_type="genomic DNA"
                     /organism="Homo sapiens"
                     /submitter_seqid="A01234B01"

-- The rest is snipped --
//

Related pages

  • Genome Project のデータ登録
  • WGS
  • CON
  • GSS
  • HTG
  • Environmental sequence の登録
  • ENV
  • TLS
  • Transcriptome Project のデータ登録
  • TSA
  • EST
  • HTC
  • Third Party Data (TPA)