最終更新日:2016.1.25.

TSA とは? - Transcriptome Shotgun Assembly

2008年から DDBJ/EMBL-Bank/GenBank 国際塩基配列データベース (INSDC) では、アセンブルされた cDNA 配列データを、Transcriptome Shotgun Assembly (TSA) division に受け付けています。

以前、INSDC は EST アセンブルによって得られた配列データの登録を受け付けていませんでした。しかし、新しい塩基配列決定技術の普及に伴い、INSDC に EST アセンブルに相当する配列データの登録依頼が急増しました。このような配列データは、正しくアセンブルされておらず自然界に存在していないケースをも含んでいる可能性がありますが、近年、その需要も高まってきました。そこで、DDBJ/EMBL-Bank/GenBank は EST アセンブルに相当する配列データを専用に格納する TSA division を新設し、登録を受け付けることを決定しました。

TSA を登録するためには、その登録に先立って、BioProject DatabaseBioSample Database への登録と アセンブリの元となる1次転写産物 (primary transcripts) の配列データ(プライマリーエントリ)が DDBJ/EMBL-Bank/GenBank の EST divisionDDBJ Trace ArchiveDDBJ Read Archive の何れかに登録されている必要があります。
Transcriptome Project の各段階と登録データの種別もご参照ください。

プライマリーエントリが TSA 登録者と異なる登録者に帰属する配列データである場合は、TPA として扱います。

TSA 登録には、Mass Submission System (MSS) をご利用ください。

TSA におけるプライマリーエントリの定義

プライマリーエントリとは、DDBJ/EMBL-Bank/GenBank、Trace ArchiveSequence Read Archive の何れかから取得可能なデータであり、当該エントリの登録者が実験的に配列決定を行った RNA 配列データです。

TSA 登録の時点では、プライマリーエントリが非公開でも問題ありませんが、TSA の公開時には、プライマリーエントリ取得・閲覧可能な状態である必要があります。

TSA 登録における注意事項

TSA とプライマリーエントリの配列アラインメントに関する規則

  • TSA エントリの領域は単一の EST、もしくは、read からアセンブル可能であり、1x coverage でも構いません。
  • paired end sequences などを根拠として gap 領域を挟んでアセンブルされている場合、配列中では連続した n として記載可能です。ただし、その gap 領域はassembly_gap feature で示されていなければなりません。
  • assembly_gap feature を記載していない領域の配列における曖昧さの制限

   [1] 'n' で示される塩基は 5% より少ないこと
   [2] 連続した 'n' で示される区間が 5 塩基以下であること

DDBJフラットファイルにおける TSA エントリの特徴

LOCUS 行に表示される DIVISION は、"TSA" です。
DEFINITION 行は "TSA:" で始まります。
KEYWORDS 行には "TSA" と "Transcriptome Shotgun Assembly" が表示されます。
PRIMARY 行には、引用されたプライマリーエントリの配列領域と、これに対応する TSA 配列の領域が記載されます。

アクセッション番号の説明

2015 年 10 月以降に DDBJ に登録された TSA データに発行されるアクセッション番号はアルファベット4文字+8桁(9または10 桁になることがあります)の数字で構成されます。

: ZZZZ01000001

アルファベット4文字 -- プロジェクトを区別する prefix
2桁の数字 -- データセットのバージョン番号
6桁の数字 -- エントリ(各配列の)番号(エントリ数に応じて7または8桁になる場合があります)

TSA のフラットファイル例

DDBJ Read Archive を引用した例

LOCUS       IZZY01000001             800 bp   mRNA     linear   TSA 15-OCT-2015
DEFINITION  TSA: Mus musculus RNA, contig: 1_1.
ACCESSION   IZZY01000001
VERSION     IZZY01000001.1
DBLINK      BioProject:PRJDA43210
            Sequence Read Archive: DRR900001
            BioSample: SAMD98765431
KEYWORDS    TSA; Transcriptome Shotgun Assembly.
SOURCE      Mus musculus (house mouse)
  ORGANISM  Mus musculus
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia;
            Sciurognathi; Muroidea; Muridae; Murinae; Mus; Mus.
REFERENCE   1  (bases 1 to 800)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (30-SEP-2008) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2  
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     Transcriptome shotgun assembly of mouse
  JOURNAL   TSA Biol 12, 61-70 (2015)
COMMENT  
FEATURES             Location/Qualifiers
     source          1..800
                     /db_xref="taxon:10090"
                     /mol_type="transcribed RNA"
                     /note="contig: 1_1"
                     /organism="Mus musculus"
BASE COUNT          199 a          203 c          198 g          200 t
ORIGIN      
        1 attaatataa gctaaatatg tttttcaata tatattgata atagaatatc aacaatttgg
        :
        -- The rest of nucleotide sequence is omitted --
        :
// 

EST を引用した例

LOCUS       IZZZ01000001             800 bp   mRNA     linear   TSA 15-OCT-2008
DEFINITION  TSA: Homo sapiens GAPD mRNA for glyceraldehyde-3-phosphate
            dehydrogenase, complete cds.
ACCESSION   IZZZ01000001
VERSION     IZZZ01000001.1
DBLINK      BioProject:PRJDA43211
            BioSample: SAMD98765433
KEYWORDS    TSA; Transcriptome Shotgun Assembly.
SOURCE      Homo sapiens (human)
  ORGANISM  Homo sapiens
            Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi;
            Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini;
            Catarrhini; Hominidae; Homo.
REFERENCE   1  (bases 1 to 800)
  AUTHORS   Mishima,H. and Shizuoka,T.
  TITLE     Direct Submission
  JOURNAL   Submitted (30-SEP-2008) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2  
  AUTHORS   Mishima,H., Shizuoka,T. and Fuji,I.
  TITLE     EST assembly of human
  JOURNAL   TSA Biol 12, 61-70 (2008)
COMMENT  
PRIMARY     TSA_SPAN            PRIMARY_IDENTIFIER PRIMARY_SPAN        COMP
            1-599               ZZ000004.1         2-598
            1-669               ZZ000005.1         11-679
            2-596               ZZ000006.1         1-595
            2-575               ZZ000007.1         1-574
            5-676               ZZ000008.1         1-672
            6-725               ZZ000009.1         1-720
            59-369              ZZ000010.1         13-322
            605-800             ZZ000011.1         1-196               c
FEATURES             Location/Qualifiers
     source          1..800
                     /db_xref="taxon:9606"
                     /mol_type="transcribed RNA"
                     /organism="Homo sapiens"
     CDS             73..669
                     /codon_start=1
                     /gene="GAPD"
                     /product="glyceraldehyde-3-phosphate dehydrogenase"
                     /protein_id="LZZ00001.1"
                     /transl_table=1
                     /translation="MWYQSLVIIEKLNLEANIGKLINTKDNINIRCRLSHTEEHSWHS
                     -- The rest of amino acid sequence is omitted -- "
BASE COUNT          199 a          203 c          198 g          200 t
ORIGIN      
        1 attaatataa gctaaatatg tttttcaata tatattgata atagaatatc aacaatttgg
        :
        -- The rest of nucleotide sequence is omitted --
        :
// 
ページの先頭へ戻る