2008年から DDBJ/EMBL-Bank/GenBank 国際塩基配列データベース (INSDC) では、アセンブルされた cDNA 配列データを、Transcriptome Shotgun Assembly (TSA) division に受け付けています。
以前、INSDC は EST アセンブルによって得られた配列データの登録を受け付けていませんでした。しかし、新しい塩基配列決定技術の普及に伴い、INSDC に EST アセンブルに相当する配列データの登録依頼が急増しました。このような配列データは、正しくアセンブルされておらず自然界に存在していないケースをも含んでいる可能性がありますが、近年、その需要も高まってきました。そこで、DDBJ/EMBL-Bank/GenBank は EST アセンブルに相当する配列データを専用に格納する TSA division を新設し、登録を受け付けることを決定しました。
TSA を登録するためには、その登録に先立ってアセンブリの元となる1次転写産物 (primary transcripts) の配列データ(プライマリーエントリ)が DDBJ/EMBL-Bank/GenBank の EST division、DDBJ Trace Archive、DDBJ Read Archive の何れかに登録されている必要があります。
プライマリーエントリが TSA 登録者と異なる登録者に帰属する配列データである場合は、TPA として扱います。
TSA 登録には、大量登録システム (MSS) をご利用ください。
TSA におけるプライマリーエントリの定義
プライマリーエントリとは、DDBJ/EMBL-Bank/GenBank、Trace Archive、Sequence Read Archive の何れかから取得可能なデータであり、当該エントリの登録者が実験的に配列決定を行った mRNA 配列データです。
TSA 登録の時点では、プライマリーエントリが非公開でも問題ありませんが、TSA の公開時には、プライマリーエントリ取得・閲覧可能な状態である必要があります。
TSA 登録における注意事項
-
登録に先立ち、BioProject Database へ登録し BioProject ID を取得してください。
-
2種以上の生物から得られた プライマリーエントリ の assembly は受け付けることができません。ただし、環境サンプル様の対象に由来する Transcriptome Shotgun Assembly は登録可能です。
-
TSA データの登録には、アセンブリの元となるプライマリーエントリが既に DDBJ/EMBL-Bank/GenBank の EST division、DDBJ Trace Archive、DDBJ Read Archive の何れかに登録されている必要があります。
-
EST division または DDBJ Trace Archive を引用する場合、プライマリーエントリの配列群と、結果として構築された配列との対応付けのために、PRIMARY 行に両者の位置情報を記載します。
DDBJ Read Archive を引用する場合は、DRA の run accession number を DBLINK 行に記載します。
発現条件に相当する 組織 (tissue_type)、発生段階 (dev_stage)、性別 (mating_type または sex)、などの qualifier の記載を推奨します。ただし、異なる条件に由来する対象を引用して構築された場合は記載できません。
TSA とプライマリーエントリの配列アラインメントに関する規則
-
TSA エントリの領域は単一の EST、もしくは、read からアセンブル可能であり、1x coverage でも構いません。
アセンブルされた TSA エントリの配列における曖昧さの制限
[1] 'n' で示される塩基は 5% より少ないこと
[2] 連続した 'n' で示される区間が 5 塩基以下であること
DDBJフラットファイルにおける TSA エントリの特徴
- LOCUS 行に表示される DIVISION は、"TSA" です。
- DEFINITION 行は "TSA:" で始まります。
- KEYWORDS 行には "TSA" と "Transcriptome Shotgun Assembly" が表示されます。
- PRIMARY 行には、引用されたプライマリーエントリの配列領域と、これに対応する TSA 配列の領域が記載されます。
TSA のフラットファイル例
LOCUS FS000000 800 bp mRNA linear TSA 15-OCT-2008 DEFINITION TSA: Homo sapiens GAPD gene for glyceraldehyde-3-phosphate dehydrogenase, complete cds. ACCESSION FS000000 VERSION FS000000.1 DBLINK BioProject:PRJDA43210 KEYWORDS TSA; Transcriptome Shotgun Assembly. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 800) AUTHORS Mishima,H. and Shizuoka,T. TITLE Direct Submission JOURNAL Submitted (30-SEP-2008) to the DDBJ/EMBL/GenBank databases. Contact:Hanako Mishima National Institute of Genetics, DNA Data Bank of Japan; Yata 1111, Mishima, Shizuoka 411-8540, Japan REFERENCE 2 AUTHORS Mishima,H., Shizuoka,T. and Fuji,I. TITLE Glyceraldehyde-3-phosphate dehydrogenase of human JOURNAL TSA Biol 12, 61-70 (2008) COMMENT PRIMARY TSA_SPAN PRIMARY_IDENTIFIER PRIMARY_SPAN COMP 1-599 ZZ000004.1 2-598 1-669 ZZ000005.1 11-679 2-596 ZZ000006.1 1-595 2-575 ZZ000007.1 1-574 5-676 ZZ000008.1 1-672 6-725 ZZ000009.1 1-720 59-369 ZZ000010.1 13-322 605-800 ZZ000011.1 1-196 c FEATURES Location/Qualifiers source 1..800 /db_xref="taxon:9606" /mol_type="transcribed RNA" /organism="Homo sapiens" CDS 73..669 /codon_start=1 /gene="GAPD" /product="glyceraldehyde-3-phosphate dehydrogenase" /protein_id="BAA00000.1" /transl_table=1 /translation="MWYQSLVIIEKLNLEANIGKLINTKDNINIRCRLSHTEEHSWHS -- The rest of amino acid sequence is omitted -- " BASE COUNT 199 a 203 c 198 g 200 t ORIGIN 1 attaatataa gctaaatatg tttttcaata tatattgata atagaatatc aacaatttgg : -- The rest of nucleotide sequence is omitted -- : //
