DDBJ Annotated/Assembled Sequences
WGS
様々な生物においてホールゲノムショットガン配列決定法(whole genome shotgun: ゲノム全体を物理的に断片化し、シークエンサで各断片の塩基配列を決定した後、コンピューター・プログラムを用いて整理、アセンブルして完成させる手法)を用いて全ゲノム配列を決定するゲノムプロジェクトが進められています。
DDBJ/ENA/GenBank では、そのようなゲノムプロジェクトに由来する、整理が不十分な段階の大量の DNA 断片の配列を、WGS
データとして受け付けています。
INSDC standards for genome assembly
submissionもご参照ください。
WGSデータの登録は Mass Submission System (MSS) で受け付けております。
WGS として登録可能なデータ
- 原則、冗長な raw read sequences ではなく、ある程度 計算機処理を経た contigs (overlapping reads) の配列を受付けます。 冗長な raw read sequences を公表することが必要な場合は、DDBJ Sequence Read Archive (DRA) を御利用下さい。
-
- contig (overlapping reads)、及び scaffold (assembled contigs separated by gaps) の配列を WGS entry として登録します。
- sequencing gap を連続した”n”として WGS 配列に含めて記載します。
WGS として登録できないデータ
- メタゲノムではない複数種の生物由来のアセンブルゲノム配列
- chromosome assembly(contigs または scaffolds)を含まない以下のケース
- オルガネラゲノム単独の登録。
- プラスミド単独の登録。
WGS entry の登録
- MSS form から申し込みを行います。
-
- 登録に先立ち、BioProject Database と BioSample Databaseの登録が必要です。
- 全てのタンパク質コード遺伝子とタンパク質をコードしない RNA 遺伝子の記載を希望する場合には、BioSampleの登録時に locus_tag prefix を申請して下さい。
- サンプルアノテーション: (WGS sample annotation)
DDBJ フォーマットの例
WGS エントリの特徴
- アクセッション番号 は アルファベット 6 文字と数字 9 桁 (2024年1月から) 又はアルファベット 4 文字と数字 8 桁を基本とします。
- KEYWORDS 行には “WGS” とゲノムとしての完成度を示す規定値 (STANDARD_DRAFT, HIGH_QUALITY_DRAFT, IMPROVED_HIGH_QUALITY_DRAFT, ANNOTATION_GRADE, NON_CONTIGUOUS_FINISHED) が表示されます。各KEYWORDの定義は INSDC agreed methodological keywords を参照。
- COMMENT にアセンブルの要約が表示されます。
タグ名 | 値(内容) |
Assembly Method | アセンブルに使用したアルゴリズムの名称とバージョン |
Assembly Name | 生物名を含まないゲノムアセンブリの名称・バージョン。真核生物ゲノムの場合は必須 |
Genome Coverage | ゲノム配列決定の深度、被覆度。ゲノム全体推定塩基の被覆率として算出 |
Sequencing Technology | 配列解析に使用された sequencing platform 名 |
LOCUS ZZZZZZ010000001 123456 bp DNA linear ROD 07-AUG-2024
DEFINITION Mus musculus C57BL6 DNA, EN0001.
ACCESSION ZZZZZZ010000001 ZZZZZZ010000000
VERSION ZZZZZZ010000001.1
DBLINK BioProject:PRJDB99999
Sequence Read Archive:DRR999998, DRR999999
BioSample:SAMD99999999
KEYWORDS WGS; STANDARD_DRAFT.
SOURCE Mus musculus
ORGANISM Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Myomorpha;
Muroidea; Muridae;Murinae; Mus; Mus.
REFERENCE 1 (bases 1 to 123456)
AUTHORS Mishima,H. and Shizuoka,T.
TITLE Direct Submission
JOURNAL Submitted (01-MAY-2024) to the DDBJ/EMBL/GenBank databases.
Contact:Hanako Mishima
National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
Mishima, Shizuoka 411-8540, Japan
REFERENCE 2
AUTHORS Mishima,H., Shizuoka,T. and Fuji,I.
TITLE Mouse whole genome shotgun sequence
JOURNAL Unpublished (2024)
COMMENT Whole genome shotgun sequencing project.
##Genome-Assembly-Data-START##
Assembly Method :: HGAP v. 1.0; Celera Assembler v. 7.0;
Quiver v. 1.4.0; Sequencher v. 5.1
Assembly Name :: MusC56 v1
Genome Coverage :: 238x
Sequencing Technology :: PacBio RS, Illumina GAIIx
##Genome-Assembly-Data-END##
FEATURES Location/Qualifiers
source 1..123456
/collection_date="missing: lab stock"
/db_xref="taxon:10090"
/geo_loc_name="Japan"
/mol_type="genomic DNA"
/organism="Mus musculus"
/strain="C57BL6"
/submitter_seqid="EN0001"
CDS complement(join(147..1241,1364..1816))
/codon_start=1
/locus_tag="DDBJGEN_0001G0001"
/product="hypothetical protein"
/protein_id="xxxxxxxxxx.1"
/transl_table=1
/translation="MTEHIFEKISLNLSNIINKCVYKQTTLNDAQNE
IKETMNVIINQYNHYITKDVMDEILILTSKLLYSQNIESLIIYLNKL
(snipped)
GFFRMYQIWNVS"
assembly_gap 2982..3269
/estimated_length=288
/gap_type="within scaffold"
/linkage_evidence="paired_ends"
tRNA 3569..3643
/locus_tag="DDBJGEN_t0001G0001"
/product="tRNA-Ser"
-- The rest is snipped --
//