TPA とは? - Third Party Data

TPA (Third Party Data) は、DDBJ/EMBL-Bank/GenBank 国際塩基配列データベース (INSDC)、もしくは、Trace Archive に既に登録されているエントリ (これをプライマリーエントリと呼びます) を元に、第三者がアセンブル (assemble)、もしくは、(再)アノテーションを行ったデータのコレクションです。 配列のアセンブルには、既存のプライマリーエントリの組み合わせのみで構成された場合と、新規に TPA の登録者が実験的に決定した配列を混在させた場合とが存在します。INSDC では、既報のプライマリーエントリに記載されている配列に関する研究を公開するための手段として TPA 登録を受け入れています。

参考文献 Cochrane,G. et al. (2006) OMICS,10(2): 105-113

 

TPA におけるプライマリーエントリの定義

プライマリーエントリとは、当該配列データの登録者が実験的に配列決定を行ったデータとして、DDBJ/EMBL-Bank/GenBank 国際塩基配列データベース、もしくは、Trace Archive から取得可能なデータです。

TPA データが登録された時点において、そのプライマリーエントリが非公開である場合もありますが、TPA データの公開時には、取得 (閲覧) 可能な状態であることが必要です。

 

TPA 配列データ受け入れ規則

生物学的な実験の根拠の有無を区別するため、TPAを次の2種類に分けて登録いたします。

TPA 登録可能な配列の分類をご覧ください。

TPA:experimental

アセンブルされた配列、または、そのアノテーションを証明する根拠が生物学的な実験に基づいており、その内容が peer-reviewed journal に論文として記載され公開されていることを示します。

TPA:inferential

アセンブルされた配列、そのアノテーションが生物学的な実験に基づかない解析(コンピューターでの解析など)により推測された内容であることを示します。アセンブルされた配列、または、そのアノテーションの推定根拠については peer-reviewed journal に論文として公開される必要があります。

[注]
2005年まで INSDC では、生物学的な実験の根拠がない場合は TPA として受け入れておりませんでした。2006年から、生物学的な実験根拠のない配列・アノテーションでも TPA Submission Guidelines に従い TPA として登録を受け入れる方針となりました。

 

以下に該当する場合は TPA 登録を受け付けることができません。(こちらもご覧ください)

  • リピート(繰り返し)領域のみで他の feature を含まないアノテーションの場合。
  • 遺伝子予測ツール (GenMark、tRNAscan、ORFfinder など) から予測されたアノテーションで、実験的な証明が全くなされていない場合。
    また、アノテーション結果が、論文の主要な内容ではない場合。
  • 生物学的実験に基づいた遺伝子名もしくはプロダクト名が加えられていない、完全長ゲノム配列に代表されるような配列の場合。

 

TPA 登録における注意事項

  • 複数の生物種から得られた consensus sequences は、受け付けることができません。
  • TPA データの登録には、引用するプライマリーエントリの配列が既に INSDC の 'プライマリー(つまり TPA ではない)データ'、もしくは、Trace Archive に登録済である必要があります。
  • 登録予定の配列の中に、ご自身で配列決定を行った領域を含む場合には、先にその部分をプライマリーエントリとして登録した後に、引用して TPA データ全長の登録を行なって下さい。
  • TPA データの公開には、アセンブルされた配列、または、アノテーションの根拠を証明する内容が、peer-reviewed journal に論文として公開されることが必須となります。
  • 引用したプライマリーエントリにおける配列の領域と、結果としてアセンブルされた配列の領域との対応付けのために、両者の位置情報が必要となります。

 

TPA とプライマリーエントリの配列アラインメントに関する規則

  • 引用元となるプライマリーエントリが存在しない領域は 50bp より長い範囲であってはなりません。
  • TPA とプライマリーエントリの配列に 5% より大きい不一致が存在しないようにして下さい。
  • 挿入、欠失、置換など、TPA の配列に含まれる上記の不一致な部位(5% 以下)は引用元プライマリーエントリが存在しない領域、TPA の配列と引用元の配列が一致しない領域、双方を指します。
  • 上記は配列長と配列の類似度に適用されます。

 

DDBJ フラットファイルにおける TPA の特徴

LOCUS 行には、生物名に依存した taxonomic division が表示されますが、CON、または、TSA の場合もあります。
DEFINITION 行 の先頭 がTPA_exp: (TPA:experimentalの場合)、または、TPA_inf: (TPA:inferentialの場合)で始まります。
KEYWORDS 行には次のいずれかが表示されます。
   [TPA:experimental の場合]
   Third Party Data; TPA; TPA:experimental.

   [TPA:inferential の場合]
   Third Party Data; TPA; TPA:inferential.
PRIMARY ブロックには、引用されたプライマリーエントリの配列領域と、これに対応する TPA 配列の領域が記載されます。

 

TPA フラットファイルの例

LOCUS       BR000000                2000 bp    mRNA    linear   HUM 17-SEP-2006
DEFINITION  TPA_exp: Homo sapiens GAPD gene for glyceraldehyde-3-phosphate
            dehydrogenase, complete cds.
ACCESSION   BR000000
VERSION     BR000000.1
KEYWORDS    Third Party Data; TPA; TPA:experimental. 
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 2000)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (30-NOV-2005) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2  
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Glyceraldehyde-3-phosphate dehydrogenase of human
  JOURNAL   TPA Biol Chem 10, 50-59 (2006)
COMMENT  
PRIMARY     TPA_SPAN            PRIMARY_IDENTIFIER PRIMARY_SPAN        COMP
            1-1000              ZZ000001.1         50001-51000
            101-200             ZZ000003.1         1-100
            501-600             ZZ000003.1         101-200
            901-2000            ZZ000002.1         25001-26100         c
            1451-1550           ZZ000003.1         201-300
FEATURES             Location/Qualifiers
     source          1..2000 
                     /db_xref="taxon:9606"
                     /mol_type="genomic DNA"
                     /organism="Homo sapiens"
     CDS             join(153..200,501..600,1451..1500) 
                     /codon_start=1
                     /gene="GAPD"
                     /product="glyceraldehyde-3-phosphate dehydrogenase"
                     /protein_id="FAA00000.1"
                     /transl_table=1
                     /translation="MWYQSLVIIEKLNLEANIGKLINTKDNINIRCRLSHTEEHSWHS
                     NNSQLNLIVDLIYNFYINWSK"
BASE COUNT          522 a          493 c          524 g          461 t
ORIGIN      
        1 attaatataa gctaaatatg tttttcaata tatattgata atagaatatc aacaatttgg
        :
        -- The rest of sequence is omitted --
        :
// 

ページの先頭へ戻る