「DDBJ/EMBL-Bank/GenBank 国際塩基配列データベース」は,全世界の研究者が実験によって決定したDNA (または RNA) の塩基配列データを,DDBJ/EMBL-Bank/GenBank 国際 DNA データバンクが,三者間で定めたデータ構築規範に沿って収集・編集することにより構築されています。
また,データベースの中には,日本のJapan Patent Office (JPO),欧州の European Patent Office (EPO),米国の United States Patent and Trademark Office (USPTO),韓国の Korean Intellectual Property Office (KIPO) が収集・処理した塩基配列データも含まれています。
塩基配列データベースは,データの単位である「エントリ」の集合として構成されています。 DDBJ に登録されたそれぞれのエントリは,DDBJ の定めるフォーマットにしたがった「フラットファイル」 (flat file) の形式で公開されています。 フラットファイルには,塩基配列のほか,配列の登録者,関連文献,由来生物種,Feature 情報などが表示されています。 Feature 情報とは,その塩基配列のもつ生物学的特徴や遺伝子の機能,特性等に関する情報を記述したもので,記述形式は, DDBJ/EMBL/GenBank Feature Table Definition (国際塩基配列データベースが定める記述形式) によって定められています。
DDBJフォーマットの例 (架空のサンプルです)
以下では, DDBJ フォーマットのフラットファイルの各項目について説明します。
LOCUS AB000000 450 bp mRNA linear HUM 01-JUN-2009 DEFINITION Homo sapiens GAPD mRNA for glyceraldehyde-3-phosphate dehydrogenase, partial cds. ACCESSION AB000000 VERSION AB000000.1 KEYWORDS . SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 450) AUTHORS Mishima,H. and Shizuoka,T. TITLE Direct Submission JOURNAL Submitted (30-NOV-2008) to the DDBJ/EMBL/GenBank databases. Contact:Hanako Mishima National Institute of Genetics, DNA Data Bank of Japan; Yata 1111, Mishima, Shizuoka 411-8540, Japan REFERENCE 2 AUTHORS Mishima,H., Shizuoka,T. and Fuji,I. TITLE Glyceraldehyde-3-phosphate dehydrogenase expressed in human liver JOURNAL Unpublished (2009) COMMENT Human cDNA sequencing project. FEATURES Location/Qualifiers source 1..450 /chromosome="12" /clone="GT200015" /clone_lib="lambda gt11 human liver cDNA (GeneTech. No.20)" /db_xref="taxon:9606" /map="12p13" /mol_type="mRNA" /organism="Homo sapiens" /tissue_type="liver" CDS 86..>450 /codon_start=1 /gene="GAPD" /product="glyceraldehyde-3-phosphate dehydrogenase" /protein_id="BAA12345.1" /transl_table=1 /translation="MAKIKIGINGFGRIGRLVARVALQSDDVELVAVNDPFITTDYMT YMFKYDTVHGQWKHHEVKVKDSKTLLFGEKEVTVFGCRNPKEIPWGETSAEFVVEYTG VFTDKDKAVAQLKGGAKKV" BASE COUNT 102 a 119 c 131 g 98 t ORIGIN 1 cccacgcgtc cggtcgcatc gcacttgtag ctctcgaccc ccgcatctca tccctcctct 61 cgcttagttc agatcgaaat cgcaaatggc gaagattaag atcgggatca atgggttcgg 121 gaggatcggg aggctcgtgg ccagggtggc cctgcagagc gacgacgtcg agctcgtcgc 181 cgtcaacgac cccttcatca ccaccgacta catgacatac atgttcaagt atgacactgt 241 gcacggccag tggaagcatc atgaggttaa ggtgaaggac tccaagaccc ttctcttcgg 301 tgagaaggag gtcaccgtgt tcggctgcag gaaccctaag gagatcccat ggggtgagac 361 tagcgctgag tttgttgtgg agtacactgg tgttttcact gacaaggaca aggccgttgc 421 tcaacttaag ggtggtgcta agaaggtctg //
以上のように,フラットファイルは登録者から提供される情報に基づいて,一定の形式に則って作成されています。 登録者の研究上の着眼点の違いなどにより,配列が類似している登録の場合でもフラットファイルに記載される内容は異なることがあります。 検索結果を参照される際にはご注意下さい。
