• DDBJ Search で新規公開・再公開された DRA が検索できません
  • getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature Table
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 配列データ記載例
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • HTG
    • Environmental sample
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • WGS

WGS

様々な生物においてホールゲノムショットガン配列決定法(whole genome shotgun: ゲノム全体を物理的に断片化し、シークエンサで各断片の塩基配列を決定した後、コンピューター・プログラムを用いて整理、アセンブルして完成させる手法)を用いて全ゲノム配列を決定するゲノムプロジェクトが進められています。

DDBJ/ENA/GenBank では、そのようなゲノムプロジェクトに由来する、整理が不十分な段階の大量の DNA 断片の配列を、WGS データとして受け付けています。
INSDC standards for genome assembly submissionもご参照ください。

公開されているWGSデータ

WGSデータの登録は Mass Submission System (MSS) で受け付けております。

WGS として登録可能なデータ

原則、冗長な raw read sequences ではなく、ある程度 計算機処理を経た contigs (overlapping reads) の配列を受付けます。 冗長な raw read sequences を公表することが必要な場合は、DDBJ Sequence Read Archive (DRA) を御利用下さい。
  • contig (overlapping reads)、及び scaffold (assembled contigs separated by gaps) の配列を WGS entry として登録します。
  • sequencing gap を連続した”n”として WGS 配列に含めて記載します。

WGS として登録できないデータ

  • メタゲノムではない複数種の生物由来のアセンブルゲノム配列
  • chromosome assembly(contigs または scaffolds)を含まない以下のケース
    • オルガネラゲノム単独の登録。
    • プラスミド単独の登録。

WGS entry の登録

MSS form から申し込みを行います。
  • 登録に先立ち、BioProject Database と BioSample Databaseの登録が必要です。
  • 全てのタンパク質コード遺伝子とタンパク質をコードしない RNA 遺伝子の記載を希望する場合には、BioSampleの登録時に locus_tag prefix を申請して下さい。
  • サンプルアノテーション: (WGS sample annotation)

DDBJ フォーマットの例

WGS エントリの特徴

  • アクセッション番号 は アルファベット 6 文字と数字 9 桁 (2024年1月から) 又はアルファベット 4 文字と数字 8 桁を基本とします。
  • KEYWORDS 行には “WGS” とゲノムとしての完成度を示す規定値 (STANDARD_DRAFT, HIGH_QUALITY_DRAFT, IMPROVED_HIGH_QUALITY_DRAFT, ANNOTATION_GRADE, NON_CONTIGUOUS_FINISHED) が表示されます。各KEYWORDの定義は INSDC agreed methodological keywords を参照。
  • COMMENT にアセンブルの要約が表示されます。
タグ名 値(内容)
Assembly Method アセンブルに使用したアルゴリズムの名称とバージョン
Assembly Name 生物名を含まないゲノムアセンブリの名称・バージョン。真核生物ゲノムの場合は必須
Genome Coverage ゲノム配列決定の深度、被覆度。ゲノム全体推定塩基の被覆率として算出
Sequencing Technology 配列解析に使用された sequencing platform 名


LOCUS       ZZZZZZ010000001              123456 bp    DNA    linear   ROD 07-AUG-2024
DEFINITION  Mus musculus C57BL6 DNA, EN0001. 
ACCESSION   ZZZZZZ010000001 ZZZZZZ010000000
VERSION     ZZZZZZ010000001.1
DBLINK      BioProject:PRJDB99999
            Sequence Read Archive:DRR999998, DRR999999
            BioSample:SAMD99999999
KEYWORDS    WGS; STANDARD_DRAFT.
SOURCE      Mus musculus
  ORGANISM  Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; 
            Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Myomorpha; 
            Muroidea; Muridae;Murinae; Mus; Mus.
REFERENCE   1  (bases 1 to 123456)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (01-MAY-2024) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Mouse whole genome shotgun sequence
  JOURNAL   Unpublished (2024)
COMMENT     Whole genome shotgun sequencing project.
            ##Genome-Assembly-Data-START##
            Assembly Method       :: HGAP v. 1.0; Celera Assembler v. 7.0; 
                                     Quiver v. 1.4.0; Sequencher v. 5.1
            Assembly Name         :: MusC56 v1
            Genome Coverage       :: 238x
            Sequencing Technology :: PacBio RS, Illumina GAIIx
            ##Genome-Assembly-Data-END##
FEATURES             Location/Qualifiers
     source          1..123456
                     /collection_date="missing: lab stock"
                     /db_xref="taxon:10090"
                     /geo_loc_name="Japan"
                     /mol_type="genomic DNA"
                     /organism="Mus musculus"
                     /strain="C57BL6"
                     /submitter_seqid="EN0001"
     CDS             complement(join(147..1241,1364..1816))
                     /codon_start=1
                     /locus_tag="DDBJGEN_0001G0001"
                     /product="hypothetical protein"
                     /protein_id="xxxxxxxxxx.1"
                     /transl_table=1
                     /translation="MTEHIFEKISLNLSNIINKCVYKQTTLNDAQNE
                     IKETMNVIINQYNHYITKDVMDEILILTSKLLYSQNIESLIIYLNKL
                     (snipped)
                     GFFRMYQIWNVS"
     assembly_gap    2982..3269
                     /estimated_length=288
                     /gap_type="within scaffold"
                     /linkage_evidence="paired_ends"
     tRNA             3569..3643
                     /locus_tag="DDBJGEN_t0001G0001"
                     /product="tRNA-Ser"

-- The rest is snipped --
//

Related pages

  • Data Submission from Genome Project
  • CON
  • GSS
  • HTG
  • Submission of environmental sequences
  • ENV
  • TLS
  • Data Submission from Transcriptome Project
  • TSA
  • EST
  • HTC
  • Third Party Data (TPA)