国際塩基配列データベースのアクセッション番号

定義

INSD (the International Nucleotide Sequence Databases; 国際塩基配列データベース) とは、全世界の研究者が実験によって決定した塩基配列データ、または、その TPA データを DDBJ,EMBL-bank,GenBank のデータバンクが定めたデータ構築規範に沿って収集・編集した上で、提供するものを指します。
INSD は研究者から直接送付された DNA 塩基配列データを編集することによって作成されており、データの単位である「エントリ」の集合として構成されています。

INSD が正式に発行するアクセッション番号は、このようなエントリに対して固有な ID として割り振られます。

INSD のアクセッション番号フォーマット

アルファベット1文字+5桁の数字 (例 A12345) または アルファベット2文字+6桁の数字 (例 AB123456) で構成されています。
アルファベットの部分をプレフィックスと呼びます。

プレフィックスの詳細はこちらをご参照ください。

ただし,例外的に WGS データに発行されるアクセッション番号は12桁 (アルファベット4文字+8桁の数字) で構成されます。

WGS プレフィックスの詳細はこちらをご参照ください。

アクセッション番号と混同されるもの

下記は混同されることが多いのですが、INSD のアクセッション番号ではありません。

INSD 以外のデータベースにおいて発行される ID
   例)NCBI RefSeq などで使用される NC_123456, NM_123456
INSD が発行する protein_id
   例)BAA12345.1

protein_id プレフィックスの詳細はこちらをご参照ください。

ページの先頭へ戻る