DDBJ Annotated/Assembled Sequences
TPA
- 2025年1月以降、TPA-Exp および TPA-Inf の data type の新規登録を休止
- TPA (Third Party Data) は、INSDC に既に登録されているエントリ (これをプライマリーエントリと呼びます) を元に、
第三者がアセンブル (assemble)、もしくは、(再)アノテーションを行ったデータのコレクションです。
配列のアセンブルには、既存のプライマリーエントリの組み合わせのみで構成された場合と、新規に TPA の登録者が実験的に決定した配列を混在させた場合とが存在します。 INSDC では、既報のプライマリーエントリに記載されている配列に関する研究を公開するための手段として TPA 登録を受け入れています。
TPA におけるプライマリエントリの定義
プライマリーエントリとは、当該配列データの登録者が実験的に配列決定を行ったデータとして、INSDC から取得可能なデータです。 TPA データが登録された時点において、そのプライマリーエントリが非公開である場合もありますが、TPA データの公開時には、取得 (閲覧) 可能な状態であることが必要です。
TPA 配列データの受け入れ規則
TPA は以下の4種類に分けて登録を受け付けます。
TPA 登録可能な配列の分類をご覧ください。
TPA:experimental | アセンブルされた配列、または、そのアノテーションを証明する根拠が生物学的な実験に基づいており、その内容が peer-reviewed journal に論文として記載され公開されていることを示します。 |
TPA:inferential | アセンブルされた配列、そのアノテーションが生物学的な実験に基づかない解析(コンピューターでの解析など) により推測された内容であることを示します。アセンブルされた配列、または、そのアノテーションの推定根拠については peer-reviewed journal に論文として公開される必要があります。 |
TPA:assembly | TPA:assembly で示される配列では、計算機的な推測や実験的解析の結果のどちらであるかにかかわらず、配列の生成が peer-review の対象である必要があります。annotation は記載しても記載しなくてもどちらでもよく、アノテーション自体は peer-review の一部である必要はありません。 |
TPA:specialist_db | 認められたpeer-review出版物に報告があり、既存、かつ信頼のある public database から登録された配列で、INSDC 配列データを使用して構築された配列であることを示します。 |
[注]2005年まで INSDC では、生物学的な実験の根拠がない場合は TPA として受け入れておりませんでした。 2006年から、生物学的な実験根拠のない配列・アノテーションでも TPA Submission Guidelines に従い TPA として登録を受け入れる方針となりました。
Unacceptable records for TPA もご覧ください。
以下に該当する場合は TPA 登録を受け付けることができません。
- 複数の生物種から得られた consensus sequences は、受け付けることができません。
- リピート(繰り返し)領域のみで他の feature を含まないアノテーションの場合。
- 遺伝子予測ツール (GenMark、tRNAscan、ORFfinder など) から予測されたアノテーションで、実験的な証明が全くなされていない場合。 また、アノテーション結果が、論文の主要な内容ではない場合。
- 生物学的実験に基づいた gene name もしくは product name が加えられていない、完全長ゲノム配列に代表されるような配列の場合。
TPA 登録における注意事項
- 登録は、Mass Submission System (MSS) を御利用下さい。登録の申し込みは MSS form から行います。
- TPA データの登録には、引用する配列のアクセッション番号の記載が必須です。
- TPA データの登録には、引用するプライマリーエントリの配列が既に INSDC の ‘プライマリー(つまり TPA ではない)データ’ として登録済である必要があります。
- 登録予定の配列の中に、ご自身で配列決定を行った領域を含む場合には、先にその部分をプライマリーエントリとして登録してアクセッション番号を受領後、当該エントリを引用して TPA データ全長の登録を行なって下さい。
- TPA データの公開には、アセンブルされた配列、または、アノテーションの根拠を証明する内容が、peer-reviewed journal に論文として公開されることが必須となります。
- 全長規模のゲノムアセンブル配列 (TPA-WGS; Third Party Data- Whole Genome Shotgun, など) の登録では、TPAの登録に先立ち、BioProject Database と BioSample Databaseの登録が必要です。全てのタンパク質コード遺伝子とタンパク質をコードしない RNA 遺伝子の記載を希望する場合には、BioSampleの登録時に locus_tag prefix を申請して下さい。
- サンプルアノテーション: TPA-WGS annotation
TPA とプライマリーエントリの配列アラインメントに関する規則
- 引用する配列のアクセッション番号はCOMMENT行またはPRIMARYブロックに記載します。COMMENT行の場合は、引用したアクセッション番号をリストします。さらに、引用したプライマリーエントリにおける配列の領域と、結果としてアセンブルされた配列の領域との対応付けのための両者の位置情報を記載する場合には、(ページリンク)を参考にして、PRIMARYブロックに記載します。
- プライマリーエントリに raw reads が含まれる場合には、raw reads の位置情報の記載は不要です。
- 引用元となるプライマリーエントリが存在しない領域は 50bp より長い範囲であってはなりません。
- TPA とプライマリーエントリの配列に 5% より大きい不一致が存在しないようにして下さい。
- 挿入、欠失、置換など、TPA の配列に含まれる上記の不一致な部位(5% 以下)は引用元プライマリーエントリが存在しない領域、TPA の配列と引用元の配列が一致しない領域、双方を指します。
- 上記は配列長と配列の類似度に適用されます。
DDBJ フラットファイルにおける TPA の特徴
-
- LOCUS 行には、生物名に依存した taxonomic division が表示されますが、CON、または、TSA の場合もあります。
- DEFINITION 行 の先頭 がTPA_exp: (TPA:experimental の場合)、TPA_inf: (TPA:inferential の場合)、TPA_asm: (TPA:assembly の場合)、TPA: (TPA:specialist_db の場合)、で始まります。
- KEYWORDS 行には次のいずれかが表示されます。
TPA:experimental の場合 Third Party Data; TPA; TPA:experimental. TPA:inferential の場合 Third Party Data; TPA; TPA:inferential. TPA:assembly の場合 Third Party Data; TPA; TPA:assembly. TPA:specialist_db の場合 Third Party Data; TPA; TPA:specialist_db. - PRIMARY ブロックには、引用されたプライマリーエントリの配列領域と、これに対応する TPA 配列の領域が記載されます。
TPA フラットファイルの例
- non-TPA-assemblyエントリの例
- アクセッション番号 は アルファベット 2 文字と数字 6 桁 又はアルファベット 4 文字と数字 8 桁を基本とします。
LOCUS BR000000 1203 bp DNA linear INV 24-OCT-2023
DEFINITION TPA_inf: Ladona fulva ELOVL9 mRNA for elongation of very
long chain fatty acids protein 9, complete cds
ACCESSION BR000000
VERSION BR000000.1
KEYWORDS Third Party Data; TPA; TPA:inferential.
SOURCE Ladona fulva (scarce chaser)
ORGANISM Ladona fulva
Eukaryota; Metazoa; Ecdysozoa; Arthropoda; Hexapoda;
Insecta; Pterygota; Palaeoptera; Odonata; Epiprocta;
Anisoptera; Libellulidae; Ladona.
REFERENCE 1 (bases 1 to 1203)
AUTHORS Mishima,H. and Shizuoka,T.
TITLE Direct Submission
JOURNAL Submitted (08-SEP-2022) to the DDBJ/EMBL/GenBank databases.
Contact:Hanako Mishima
National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
Mishima, Shizuoka 411-8540, Japan
REFERENCE 2
AUTHORS Mishima,H., Shizuoka,T. and Fuji,I.
TITLE Molecular basis of wax-based color change and UV
reflection in dragonflies
JOURNAL Elife 8, e43045 (2019)
COMMENT THIRD PARTY DATABASE: This TPA record uses data from INSD
entry ********.*
PRIMARY TPA_SPAN PRIMARY_IDENTIFIER PRIMARY_SPAN COMP
1-211 ZZ000001.1 558648-558708
195-352 ZZ000012.1 465516-465706 c
339-533 ZZ000101.1 465272-465352
526-789 ZZ123456.1 464731-464787 c
754-1022 ZZ234567.1 462998-463103
1005-1198 ZZ234568.1 462269-462405 c
1002-1203 ZZ345679.1 460365-460532 c
FEATURES Location/Qualifiers
source 1..1203
/db_xref="taxon:123851"
/geo_loc_name="missing: thrid party data"
/collection_date="missing: thrid party data"
/mol_type="genomic DNA"
/organism="Ladona fulva"
CDS join(25..259,361..786,821..960)
/codon_start=1
/gene="ELOVL9"
/product="elongation of very long chain fatty
acids protein 9"
/protein_id="xxxxxxxxxx.1"
/transl_table=1
/translation="MAAIASQVVDKYFEFMETKSDPRTSEWFLMSGP
GPLVFVLVTYLYFCNKVGPQWMEKRKPYDLKPLLIAYNLIQVLFSVW
LVWEGLQGGWLHHYNLKCQPVDYSNDPVAIRMANACWWYFFCKLIEL
LDTVFFVLRKKNNQISFLHLYHHTLMPVCAWIGTKFLPGGHGTFLGV
INSFVHIIMYFYYMMSAMGPQYQKYIWWKKYLTTLQMVQFCMIFIHS
SQLLIYECNYPKTIIVLLGINALFFLGLFGNFYRKSYKARNMKVE
"
BASE COUNT 214 a 156 c 174 g 257 t
ORIGIN
1 atggcggcga tcgctagcca ggttgttgac aagtatttcg agttcatgga gaccaagagc
-- The rest of sequence is omitted --
:
//
- TPA-assemblyエントリの登録例
- アクセッション番号 は アルファベット 4 文字と数字 8 桁を基本とします。
LOCUS EZZZ01000001 259680 bp DNA linear VRT 24-OCT-2023
DEFINITION TPA_asm: Casuarius casuarius DNA, secondary_bubble21.
ACCESSION EZZZ01000001 EZZZ01000000
VERSION EZZZ01000001.1
DBLINK BioProject:PRJDB99999
Sequence Read Archive:SRR9999990, SRR9999991,
SRR9999992, SRR9999993
BioSample:SAMD99999999
KEYWORDS WGS; Third Party Data; TPA; TPA:assembly.
SOURCE Casuarius casuarius (southern cassowary)
ORGANISM Casuarius casuarius
Eukaryota; Metazoa; Chordata; Craniata; Vertebrata;
Euteleostomi; Archelosauria; Archosauria; Dinosauria;
Saurischia; Theropoda; Coelurosauria; Aves;
Palaeognathae; Casuariiformes; Casuariidae; Casuarius.
REFERENCE 1 (bases 1 to 259680)
AUTHORS Mishima,H. and Shizuoka,T.
TITLE Direct Submission
JOURNAL Submitted (11-NOV-2022) to the DDBJ/EMBL/GenBank databases.
Contact:Hanako Mishima
National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
Mishima, Shizuoka 411-8540, Japan
REFERENCE 2
AUTHORS Mishima,H., Shizuoka,T. and Fuji,I.
TITLE Diploid genome assembly of Analysis of the Casuarius
casuarius.
JOURNAL Genome Biol Evol (2023)
REMARK Publication Status: Available-Online prior to print
DOI:10.xxx/xxxx/xxxxxx
COMMENT
##Genome-Assembly-Data-START##
Assembly Method :: HGAP v. 1.0; Celera Assembler v. 7.0;
Quiver v. 1.4.0; Sequencher v. 5.1
Assembly Name :: MusC56 v1
Genome Coverage :: 238x
Sequencing Technology :: PacBio RS, Illumina GAIIx
##Genome-Assembly-Data-END##
Third party assembly of primary data,
SRR9999990-SRR9999993.
This is a diploid assembly of female cassowary
individual. Thealternate pseudohaplotype (secondary
bubble) contigs are secondary_bubble21 -
secondary_bubble181348. The unassigned (non
bubble hetero) contigs are non_bubble_hetero3148954 -
non_bubble_hetero3150069.The homologous (non bubble
other) contigs are
non_bubble_other181349-non_bubble_other181377.
FEATURES Location/Qualifiers
source 1..259680
/db_xref="taxon:8787"
/geo_loc_name="missing: thrid party data"
/collection_date="missing: thrid party data"
/submitter_seqid="secondary_bubble21"
/mol_type="genomic DNA"
/organism="Casuarius casuarius"
CDS join(36..256,321..597,712..891)
/codon_start=1
/locus_tag="ABCDS_000010"
/product="hypothetical protein"
/protein_id="xxxxxxxxxx.1"
/transl_table=1
/translation="MSKSIRNPIYPPVKGTVFDQLFYNRLYDYQTEM
ANIEHVLKTNFSKYSKGKYNQDIVSDIFGQGIFVVDGEKWKQQRKLA
SFFSTRVLRDFSCSVFRRNAFEISGATKSFDMQDILMRCTLDSIFKV
GFGIDLNCLEGSSKEGTAFMDPEENDTYLRDIILNFMIAGKDTSANT
LSWFLYMLCKNPLIQEKVAQEVRDVVGGQVGDPDELVANITDAALEK
MHYL"
assembly_gap 921..1156
/estimated_length=236
/gap_type="within scaffold"
/linkage_evidence="paired_ends"
BASE COUNT 54123 a 69116 c 62143 g 62168 t
ORIGIN
1 aaaaaaagag gttaaaaaat ctgggagttg cttagctaca ctagactgat ccttgaggaa
-- The rest of sequence is omitted --
:
//