DDBJ Annotated/Assembled Sequences
Finished level genomic sequences
Finished level genomic sequences (non-WGS)
Finished level genomic sequences として登録可能な配列データ
- Finished level genomic sequences とは、ゲノムを構成する各レプリコンの全長配列であり、レプリコンにつき、1エントリーであることが必要です。シーケンシングギャップが含まれていても構いません。一般的には、chromosome の全長配列を指します。
- 各chromosome のエントリは、一つながりの連続した配列です。Finished level genomic sequences にはchromosomeに加えて、オルガネラやプラスミドの配列も含めることができます。
- ゲノムを構成する各エントリは、chromosome、オルガネラ、プラスミドの何れかである必要があります。また、chromosome には、chromosome番号は決定しているが位置や向きが不明な配列(unlocalized sequence)及びchromoosme 番号が不明な配列(unplaced sequence)も、Finished level genomic sequences セットの一部にエントリとして含めることができます。
- 原核生物およびウイルス/ファージでは、レプリコン単位(ゲノム及びプラスミドまたはセグメント)の全長配列が読み取られていることが期待されます。
- 真核生物では、各chromosome の配列にシーケンシングギャップ(セントロメア、テロメア、繰り返し配列が連続する部分などの読み取りが困難な領域)を含む一つながりの配列を、Finished level として登録可能です。その場合は、シーケンシングギャップ領域のアノテーションが、必須です。
データ登録の要点
- Finished level genomic sequences の登録は Mass Submission System (MSS) から申し込んで下さい。
- Finished level genomic sequences の登録に先立ち、BioProject と BioSample への登録を完了し、それらアクセッション番号をFinished level genomic sequences エントリに記載をします。
- Raw read sequences は、DDBJ Sequence Read Archive (DRA)に登録可能です。アセンブリの構築に使用した run data のアクセッション番号は、 Finished level genomic sequences エントリに記載をします。
- source以外のCDS、tRNA、rRNA等の biological feature を記載する場合には、BioSample の登録時にlocus_tag prefix を必ず取得して下さい。
- biological feature の記載は任意ですが、過去に登録例がない生物種のゲノムデータには、記載が必要です。
- chromosome 番号、オルガネラ名、プラスミド名、segment 番号は、 規定されたqualifier を用いてsource フィーチャに記載して下さい。unlocalized 配列およびunplaced 配列については、note にscafold 番号またはcontig 番号を記載してください。
以下のサイトも併せてご覧下さい。
配列の構成
- 配列の構成要素は以下になります。
- chromosome level assembly sequence (chromosome)
- unlocalized sequence (scaffold およびcontig)
- unplaced sequence (scaffold およびcontig)
- organelle genome sequence
- plasmid sequence
- segment sequence (for virus genome)
- 構成例
- 真核生物ゲノム
- chromosome、unlocalized、unplaced、organelle
- 原核生物ゲノム
- chromosome、plasmid
- ウイルス / ファージゲノム
- chromosome、segment
- 合成配列ゲノム
- chromosome
- 真核生物ゲノム
用語説明
| レプリコン | 単一の複製起点から開始され、一連の制御因子によって連続的に複製される DNA または RNA の構造単位。 |
| Chromosome | 1本以上の染色体の配列で、ギャップの有無は問わない。Unlocalized 配列や Unplaced 配列が存在する場合がある。 |
| Unlocalized 配列 | 特定の染色体に属しているが、その染色体上で位置または方向を決定していない配列。 |
| Unplaced 配列 | どの染色体に属しているのか決定していない配列。 |
DDBJ フォーマットの例
Finished level genomic sequences 配列エントリの特徴
- アクセッション番号 はAccession prefix 2 文字と数字 6 桁 を基本とします。
- DEFINITION 行には以下の各項目が表示されます。
- 原核生物では、chromosomeが1本で構成されるゲノム配列エントリの場合、全長ゲノム配列であることを示す “complete genome”が表示されます。
- 真核生物では、 一つながりの chromosomeの配列エントリにchromosome番号が表示されます。
- COMMENT ブロックには以下の各項目が表示されます。
| タグ名 | 値(内容) |
| Assembly Method | アセンブルに使用したアルゴリズムの名称とバージョン |
| Assembly Name | 生物名を含まないゲノムアセンブリの名称・バージョン。真核生物ゲノムの場合は必須 |
| Genome Coverage | ゲノム配列決定の深度、被覆度。ゲノム全体推定塩基の被覆率として算出 |
| Sequencing Technology | 配列解析に使用された sequencing platform 名 |
- 原核生物ゲノムエントリのフラットファイルの例
- Accession: AP025277-AP025279
- Example: Aeromonas hydrophila strain; NUITM-VA1, chromosome and plasmid
- 真核生物ゲノムエントリのフラットファイルの例
- Accession: AP023152-AP023171
- Example: Felis catus, chromosome genome assemblies
- AP023152 chromosome A1 エントリ