GSS とは? – Genome Survey Sequences

DDBJ/EMBL-Bank/GenBank の GSS division は EST division に似ていますが、その配列の大半が cDNA (RNA transcript) ではなく、ゲノムに由来するという点で異なります。
ただし、exon trap と gene trap は cDNA を介することもあります。このようなタイプの配列を解析する際には、splicing が生じてゲノム配列と比較して分断されている可能性があるため、注意が必要です。
GSS division には以下を含みますが、下記で全てを網羅している訳ではありません:

  • ランダムな "single pass read" のゲノム配列 例) RAPD, RFLP, AFLP など
  • cosmid/BAC/YAC clone の末端配列
  • exon trap, gene trap
  • transposon に隣接した配列

GSS 登録には、大量登録システム (MSS) をご利用ください。

 

GSS 登録における注意事項

登録前に cloning vector に由来する領域は配列から取り除いておいてください。
clone qualifier の記載が必須です。

 

DDBJフラットファイルにおける GSS エントリの特徴

例外もありますが、source feature 以外の feature は記載されません。
LOCUS 行に表示される DIVISION は、"GSS" です。
KEYWORDS 行には "GSS" が表示されます。

 

GSS フラットファイルの例

LOCUS       GA000000                 423 bp    DNA     linear   GSS 15-OCT-2008
DEFINITION  Arabidopsis thaliana DNA, BAC clone: CIC5D1, left end, chromosome 1
            between mi303 and mi259.
ACCESSION   GA000000
VERSION     GA000000.1
KEYWORDS    GSS.
SOURCE      Arabidopsis thaliana (thale cress)
  ORGANISM  Arabidopsis thaliana
            Eukaryota; Viridiplantae; Streptophyta; Embryophyta; Tracheophyta;
            Spermatophyta; Magnoliophyta; eudicotyledons; core eudicotyledons;
            rosids; malvids; Brassicales; Brassicaceae; Camelineae;
            Arabidopsis.
REFERENCE   1  (bases 1 to 423)
  AUTHORS   Mishima,H., Yamada,T. and Liu,G.Q.
  TITLE     Direct Submission
  JOURNAL   Submitted (30-SEP-2008) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
REFERENCE   2
  AUTHORS   Mishima,H., Yamada,T., Park,C.S. and Liu,G.Q.
  TITLE     Arabidopsis thaliana DNA
  JOURNAL   Unpublished (2008)
FEATURES             Location/Qualifiers
     source          1..423
                     /chromosome="1"
                     /clone="CIC5D1"
                     /clone_lib="AT01 BAC"
                     /db_xref="taxon:3702"
                     /ecotype="columbia"
                     /map="between mi303 and mi259"
                     /mol_type="genomic DNA"
                     /organism="Arabidopsis thaliana"
BASE COUNT          105 a          98 c          112 g          108 t
ORIGIN
        1 attaatataa gctaaatatg tttttcaata tatattgata atagaatatc aacaatttgg
        :
        -- The rest of nucleotide sequence is omitted --
        :
//