[重要] MGA データの新規登録は終了しました。
国際塩基配列データベース (DDBJ/EMBL-Bank/GenBank) では,ゲノム配列・アセンブルのアノテーションに有用な情報を提供する大規模な配列群を受け入れるために新たなデータカテゴリーを創設しました。この新規データカテゴリーの名称は MGA (Mass sequence for Genome Annotation) です。MGA データの定義は以下となっております。
MGA データエントリに発行されるアクセッション番号は12桁 (アルファベット5文字+7桁の数字) で構成されます。以下にアクセッション番号の内容を示します。
例:ZZZZZ0000001
MGA データの公開形式は1エントリごとではなく,リソースを単位に行われます。公開ファイルは以下に示す Master record および Variable record から構成されています。MGA の公開データには,KEYWORDS 行に必ず "MGA" が記載されています。
LOCUS ZZZZZ0000000 mRNA linear ROD 24-JAN-2005 DEFINITION Mus musculus 1 month adult cerebellum short transcripts tag. ACCESSION ZZZZZ0000000 VERSION ZZZZZ0000000.1 KEYWORDS MGA; CAGE (Cap Analysis Gene Expression). SOURCE Mus musculus (house mouse) ORGANISM Mus musculus Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Glires; Rodentia; Sciurognathi; Muroidea; Muridae; Murinae; Mus. REFERENCE 1 AUTHORS Mishima,H. and Shizuoka,T. TITLE Direct Submission JOURNAL Submitted (30-NOV-2009) to the DDBJ/EMBL/GenBank databases. Contact:Hanako Mishima National Institute of Genetics, DNA Data Bank of Japan; Yata 1111, Mishima, Shizuoka 411-8540, Japan REFERENCE 2 AUTHORS Mishima,H., Shizuoka,T. and Fuji,I TITLE The gene expression analysis of short transcripts tags JOURNAL Unpublished (2010) COMMENT The CAGE (cap analysis gene expression) is based on preparation and sequencing of concatamers of DNA tags deriving from the initial 20/21 nucleotides from 5' end mRNAs. Full-length cDNAs were at first selected with the Cap-Trapper method. Then, a specific linker (Linker1, some linker contain 5 bp sequences that have 15 variations for each rna sample) containing the ClassIIs restriction enzyme site MmeI was then ligated to the single-strand cDNA and then the second strand of cDNA synthesized. (中略) FEATURES Location/Qualifiers source /db_xref="taxon:10090" /dev_stage="1 month adult" /mol_type="mRNA" /organism="Mus musculus" /strain="C57BL/6J" /tissue_type="cerebellum" MGA ZZZZZ0000001-ZZZZ0340780 total number of count : 856609 Header Format >[ACC#]|[submitter's identifier]|[number of sequence count]|[map]|[free text]|[db_xref1(,db_xref2,...)]| //
Variable record の詳細についてもご参照ください。
>ZZZZZ0000001|ABC1004AA60F1902|10|9B|lipidosis-related protein Lipidosin| GI:2385656| gactgtcttcggtgaatgca >ZZZZZ0000002|ABC1003AE78G1607|5|||| gcggaagtcggaccggtcgca >ZZZZZ0000003|ABC1003AE72P1806|6|||| gggagaccgatccgggatct >ZZZZZ0000004|ABC1003AE30G1801|91|||| gagtcgggtcggtggggctgt >ZZZZZ0000005|ABC1003AA45J1501|55|||| ggggaatctgcagcctgggc >ZZZZZ0000006|ABC1003AE67B0902|152|||| gagccgtccccgacgccgcca (以下略)