登録配列の生物学的な特徴を、feature key (特徴を表す項目)、location (配列上の位置情報)および Qualifier (特徴をさらに特定する項目)を用いて記述します。EST と GSS には原則として source 以外の feature key は記述されません。
Feature 情報は、原則として登録者からの報告に基づいて記述され,それらの記述が適正になされるよう、データバンクが補足訂正を行ないます。記述項目と記述方法については、国際塩基配列データベースが定めるThe DDBJ/EMBL/GenBank Feature Table: Definition に詳しく説明されています。
配列の特徴を記述するための feature key は、下記のように分類できます。
-
- (1) 由来生物の特徴を記述するための feature key (source)
- (2) 配列の中の一定の領域がもつ生物学的機能を記述するための feature key
e.g. CDS, rRNA, etc. - (3) 配列の差違や変更を記述するための feature key
e.g. variation, conflict, etc.
(1) は、すべてのエントリに必須で、/organism と /mol_type も必須の qualifier になっています。
(2) においては、生物学的特徴を限定的に記述する key (e.g. TATA_signal) から、より幅広く記述するための key (e.g.misc_feature) などに分類されていて、できるだけ具体的な記述がなされるように構成されています。
Feature key の中で、最も頻繁に使用されるのはタンパク質のコーディング領域を記述する CDS です。 CDS featureの説明ページもご参照ください。
例
FEATURES Location/Qualifiers
source 1..450
/chromosome="12"
/clone="GT200015"
/clone_lib="lambda gt11 human liver cDNA (GeneTech.
No.20)"
/db_xref="taxon:9606"
/map="12p13"
/mol_type="mRNA"
/organism="Homo sapiens"
/tissue_type="liver"
CDS 86..>450
/codon_start=1
/gene="GAPD"
/product="glyceraldehyde-3-phosphate dehydrogenase"
/protein_id="BAA12345.1"
/transl_table=1
/translation="MAKIKIGINGFGRIGRLVARVALQSDDVELVAVNDPFITTDYMT
YMFKYDTVHGQWKHHEVKVKDSKTLLFGEKEVTVFGCRNPKEIPWGETSAEFVVEYTG
VFTDKDKAVAQLKGGAKKV"
- source
- source 1..450 -- 配列の1番目から450番目までが,以下の qualifier で記述された source に由来するものであることを示します。
- /chromosome="12" -- -- この配列が12番染色体由来であることを示します。
- /clone="GT200015" -- -- 配列の得られたcloneの名称
- /clone_lib="lambda gt11 human liver cDNA (GeneTech. No.20)" -- 配列の得られた clone library の名称
- /map="12p13" -- この配列が 12p13 に位置することを示します。
- /db_xref="taxon:9606" -- この配列が taxonomy database において ID: 9606 に対応する生物 (ヒト) 由来であることを示します。
- /mol_type="mRNA" -- mRNA に由来する配列であることを示します。
- /organism="Homo sapiens" -- この配列がヒト由来であることを示します。
- /tissue_type="liver" -- -- この配列が肝臓由来であることを示します。
- CDS
- CDS 86..>450 -- 配列の86番目から450番目までが,以下の qualifier で記述されたタンパク質をコードする領域であることを示します。詳しい Location の記述ルールについては,Location の記述法を参照して下さい。
- /codon_start=1 -- コドンの読み枠の開始位置が指定した location の1番目(登録配列の86番目)であることを示します。
- /gene="GAPD" -- gene symbol, こちらもご参照ください。
- /product="glyceraldehyde-3-phosphate dehydrogenase" -- product name, こちらもご参照ください。
- /protein_id="BAA12345.1" -- D は3文字のアルファベットと5つの数字で構成されています。
ピリオドの後の数字はその protein ID の version 番号です。
配列の更新などによって CDS の翻訳配列が変更になった場合には protein ID は変わりませんが,version 番号が上がります。 - /transl_table=1 -- genetic code table 1 に従って翻訳されることを示します。
- /translation="MAKIKIGINGFGRIGRLVARVALQSDD(中略)FTDKDKAVAQLKGGAKKV" -- CDS のアミノ酸翻訳配列がAmino Acid Codes のリストにある1文字表記で記述されます。
その他のアミノ酸の場合は全て X で表記されます。
exception qualifier が入力された場合を除き,入力された CDS feature の情報をもとに自動翻訳します。
ただし、pseudogene または pseudo が指定されている場合は記載されません。
