TPA

TPA データに関しまして DDBJ では TPA:assembly のみを受け付けております。
2025年1月以降、TPA:experimental および TPA:inferential に該当するデータの登録受付を停止しております (お知らせ)。

TPA (Third Party Data) は、INSDC に既に登録されているエントリ (これをプライマリーエントリと呼びます) を元に、第三者がアセンブル (assemble)、もしくは、(再)アノテーションを行ったデータのコレクションです。
配列のアセンブルには、既存のプライマリーエントリの組み合わせのみで構成された場合と、新規に TPA の登録者が実験的に決定した配列を混在させた場合とが存在します。 INSDC では、既報のプライマリーエントリに記載されている配列に関する研究を公開するための手段として TPA 登録を受け入れています。

参考文献: Cochrane,G. et al. (2006) OMICS,10(2): 105-113

TPA におけるプライマリエントリの定義

プライマリーエントリとは、当該配列データの登録者が実験的に配列決定を行ったデータとして、INSDC から取得可能なデータです。 TPA データが登録された時点において、そのプライマリーエントリが非公開である場合もありますが、TPA データの公開時には、取得 (閲覧) 可能な状態であることが必要です。

TPA 配列データの受け入れ規則

TPA は以下の４種類に分けて登録を受け付けます。

TPA 登録可能な配列の分類をご覧ください。

TPA:experimental	アセンブルされた配列、または、そのアノテーションを証明する根拠が生物学的な実験に基づいており、その内容が peer-reviewed journal に論文として記載され公開されていることを示します。
TPA:inferential	アセンブルされた配列、そのアノテーションが生物学的な実験に基づかない解析(コンピューターでの解析など) により推測された内容であることを示します。アセンブルされた配列、または、そのアノテーションの推定根拠については peer-reviewed journal に論文として公開される必要があります。
TPA:assembly	TPA:assembly で示される配列では、計算機的な推測や実験的解析の結果のどちらであるかにかかわらず、配列の生成が peer-review の対象である必要があります。annotation は記載しても記載しなくてもどちらでもよく、アノテーション自体は peer-review の一部である必要はありません。
TPA:specialist_db	認められたpeer-review出版物に報告があり、既存、かつ信頼のある public database から登録された配列で、INSDC 配列データを使用して構築された配列であることを示します。

[注]2005年まで INSDC では、生物学的な実験の根拠がない場合は TPA として受け入れておりませんでした。 2006年から、生物学的な実験根拠のない配列・アノテーションでも TPA Submission Guidelines に従い TPA として登録を受け入れる方針となりました。

Unacceptable records for TPA もご覧ください。

以下に該当する場合は TPA 登録を受け付けることができません。

複数の生物種から得られた consensus sequences は、受け付けることができません。
リピート(繰り返し)領域のみで他の feature を含まないアノテーションの場合。
遺伝子予測ツール (GenMark、tRNAscan、ORFfinder など) から予測されたアノテーションで、実験的な証明が全くなされていない場合。また、アノテーション結果が、論文の主要な内容ではない場合。
生物学的実験に基づいた gene name もしくは product name が加えられていない、完全長ゲノム配列に代表されるような配列の場合。

TPA 登録における注意事項

登録は、Mass Submission System (MSS) を御利用下さい。登録の申し込みは MSS form から行います。
TPA データの登録には、引用する配列のアクセッション番号の記載が必須です。
TPA データの登録には、引用するプライマリーエントリの配列が既に INSDC の ‘プライマリー(つまり TPA ではない)データ’ として登録済である必要があります。
登録予定の配列の中に、ご自身で配列決定を行った領域を含む場合には、先にその部分をプライマリーエントリとして登録してアクセッション番号を受領後、当該エントリを引用して TPA データ全長の登録を行なって下さい。
TPA データの公開には、アセンブルされた配列、または、アノテーションの根拠を証明する内容が、peer-reviewed journal に論文として公開されることが必須となります。
全長規模のゲノムアセンブル配列 (TPA-WGS; Third Party Data- Whole Genome Shotgun, など) の登録では、TPAの登録に先立ち、BioProject Database と BioSample Databaseの登録が必要です。全てのタンパク質コード遺伝子とタンパク質をコードしない RNA 遺伝子の記載を希望する場合には、BioSampleの登録時に locus_tag prefix を申請して下さい。
サンプルアノテーション： TPA-WGS annotation

TPA とプライマリーエントリの配列アラインメントに関する規則

引用する配列のアクセッション番号はCOMMENT行またはPRIMARYブロックに記載します。COMMENT行の場合は、引用したアクセッション番号をリストします。さらに、引用したプライマリーエントリにおける配列の領域と、結果としてアセンブルされた配列の領域との対応付けのための両者の位置情報を記載する場合には、（ページリンク）を参考にして、PRIMARYブロックに記載します。
プライマリーエントリに raw reads が含まれる場合には、raw reads の位置情報の記載は不要です。
引用元となるプライマリーエントリが存在しない領域は 50bp より長い範囲であってはなりません。
TPA とプライマリーエントリの配列に 5% より大きい不一致が存在しないようにして下さい。
挿入、欠失、置換など、TPA の配列に含まれる上記の不一致な部位（5% 以下）は引用元プライマリーエントリが存在しない領域、TPA の配列と引用元の配列が一致しない領域、双方を指します。
上記は配列長と配列の類似度に適用されます。

DDBJ フラットファイルにおける TPA の特徴

LOCUS 行には、生物名に依存した taxonomic division が表示されますが、CON、または、TSA の場合もあります。
DEFINITION 行の先頭がTPA_exp: (TPA:experimental の場合)、TPA_inf: (TPA:inferential の場合)、TPA_asm: (TPA:assembly の場合)、TPA: (TPA:specialist_db の場合)、で始まります。

KEYWORDS 行には次のいずれかが表示されます。

TPA:experimental の場合	Third Party Data; TPA; TPA:experimental.
TPA:inferential の場合	Third Party Data; TPA; TPA:inferential.
TPA:assembly の場合	Third Party Data; TPA; TPA:assembly.
TPA:specialist_db の場合	Third Party Data; TPA; TPA:specialist_db.

PRIMARY ブロックには、引用されたプライマリーエントリの配列領域と、これに対応する TPA 配列の領域が記載されます。

TPA フラットファイルの例

non-TPA-assemblyエントリの例: アクセッション番号はアルファベット 2 文字と数字 6 桁又はアルファベット 4 文字と数字 8 桁を基本とします。

LOCUS       BR000000              1203 bp    DNA    linear   INV 24-OCT-2023
DEFINITION  TPA_inf: Ladona fulva ELOVL9 mRNA for elongation of very 
            long chain fatty acids protein 9, complete cds
ACCESSION   BR000000
VERSION     BR000000.1
KEYWORDS    Third Party Data; TPA; TPA:inferential.
SOURCE      Ladona fulva (scarce chaser)
  ORGANISM  Ladona fulva
            Eukaryota; Metazoa; Ecdysozoa; Arthropoda; Hexapoda; 
            Insecta; Pterygota; Palaeoptera; Odonata; Epiprocta;
            Anisoptera; Libellulidae; Ladona.
REFERENCE   1  (bases 1 to 1203)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (08-SEP-2022)
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Molecular basis of wax-based color change and UV
            reflection in dragonflies
  JOURNAL   Elife 8, e43045 (2019)
COMMENT    THIRD PARTY DATABASE: This TPA record uses data from INSD 
           entry ********.*
PRIMARY     TPA_SPAN            PRIMARY_IDENTIFIER PRIMARY_SPAN        COMP
            1-211               ZZ000001.1         558648-558708 
            195-352             ZZ000012.1         465516-465706       c
            339-533             ZZ000101.1         465272-465352 
            526-789             ZZ123456.1         464731-464787       c
            754-1022            ZZ234567.1         462998-463103
            1005-1198           ZZ234568.1         462269-462405       c
            1002-1203           ZZ345679.1         460365-460532       c
FEATURES             Location/Qualifiers
     source          1..1203
                     /db_xref="taxon:123851"
                     /geo_loc_name="missing: thrid party data"
                     /collection_date="missing: thrid party data"
                     /mol_type="genomic DNA"
                     /organism="Ladona fulva"
     CDS             join(25..259,361..786,821..960) 
                     /codon_start=1
                     /gene="ELOVL9"
                     /product="elongation of very long chain fatty
                     acids protein 9"
                     /protein_id="xxxxxxxxxx.1"
                     /transl_table=1
                     /translation="MAAIASQVVDKYFEFMETKSDPRTSEWFLMSGP
                     GPLVFVLVTYLYFCNKVGPQWMEKRKPYDLKPLLIAYNLIQVLFSVW
                     LVWEGLQGGWLHHYNLKCQPVDYSNDPVAIRMANACWWYFFCKLIEL
                     LDTVFFVLRKKNNQISFLHLYHHTLMPVCAWIGTKFLPGGHGTFLGV
                     INSFVHIIMYFYYMMSAMGPQYQKYIWWKKYLTTLQMVQFCMIFIHS
                     SQLLIYECNYPKTIIVLLGINALFFLGLFGNFYRKSYKARNMKVE
"
BASE COUNT          214 a          156 c          174 g          257 t
ORIGIN
        1 atggcggcga tcgctagcca ggttgttgac aagtatttcg agttcatgga gaccaagagc
        
        -- The rest of sequence is omitted --
        :
//

TPA-assemblyエントリの登録例: アクセッション番号はアルファベット 4 文字と数字 8 桁を基本とします。

LOCUS       EZZZ01000001              259680 bp    DNA    linear   VRT 24-OCT-2023
DEFINITION  TPA_asm: Casuarius casuarius DNA, secondary_bubble21.
ACCESSION   EZZZ01000001 EZZZ01000000
VERSION     EZZZ01000001.1
DBLINK      BioProject:PRJDB99999
            Sequence Read Archive:SRR9999990, SRR9999991, 
            SRR9999992, SRR9999993
            BioSample:SAMD99999999
KEYWORDS    WGS; Third Party Data; TPA; TPA:assembly.
SOURCE      Casuarius casuarius (southern cassowary)
  ORGANISM  Casuarius casuarius
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; 
            Euteleostomi; Archelosauria; Archosauria; Dinosauria;
            Saurischia; Theropoda; Coelurosauria; Aves;
            Palaeognathae; Casuariiformes; Casuariidae; Casuarius.
REFERENCE   1  (bases 1 to 259680)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (11-NOV-2022)
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Diploid genome assembly of Analysis of the Casuarius 
            casuarius.
  JOURNAL   Genome Biol Evol (2023)
  REMARK    Publication Status: Available-Online prior to print
            DOI:10.xxx/xxxx/xxxxxx
COMMENT    
            ##Genome-Assembly-Data-START##
            Assembly Method       :: HGAP v. 1.0; Celera Assembler v. 7.0; 
                                     Quiver v. 1.4.0; Sequencher v. 5.1
            Assembly Name         :: MusC56 v1
            Genome Coverage       :: 238x
            Sequencing Technology :: PacBio RS, Illumina GAIIx
            ##Genome-Assembly-Data-END##
            
            Third party assembly of primary data, 
            SRR9999990-SRR9999993.
            This is a diploid assembly of female cassowary 
            individual. Thealternate pseudohaplotype (secondary 
            bubble) contigs are secondary_bubble21 - 
            secondary_bubble181348. The unassigned (non
            bubble hetero) contigs are non_bubble_hetero3148954 -
            non_bubble_hetero3150069.The homologous (non bubble 
            other) contigs are      
            non_bubble_other181349-non_bubble_other181377.
FEATURES             Location/Qualifiers
     source          1..259680
                     /db_xref="taxon:8787"
                     /geo_loc_name="missing: thrid party data"
                     /collection_date="missing: thrid party data"
                     /submitter_seqid="secondary_bubble21"
                     /mol_type="genomic DNA"
                     /organism="Casuarius casuarius"
     CDS             join(36..256,321..597,712..891) 
                     /codon_start=1
                     /locus_tag="ABCDS_000010"
                     /product="hypothetical protein"
                     /protein_id="xxxxxxxxxx.1"
                     /transl_table=1
                     /translation="MSKSIRNPIYPPVKGTVFDQLFYNRLYDYQTEM
                     ANIEHVLKTNFSKYSKGKYNQDIVSDIFGQGIFVVDGEKWKQQRKLA
                     SFFSTRVLRDFSCSVFRRNAFEISGATKSFDMQDILMRCTLDSIFKV
                     GFGIDLNCLEGSSKEGTAFMDPEENDTYLRDIILNFMIAGKDTSANT
                     LSWFLYMLCKNPLIQEKVAQEVRDVVGGQVGDPDELVANITDAALEK
                     MHYL"
     assembly_gap    921..1156 
                     /estimated_length=236
                     /gap_type="within scaffold"
                     /linkage_evidence="paired_ends"

BASE COUNT          54123 a          69116 c          62143 g          62168 t
ORIGIN
        1 aaaaaaagag gttaaaaaat ctgggagttg cttagctaca ctagactgat ccttgaggaa
        
        -- The rest of sequence is omitted --
        :
//