定義
INSD (the International Nucleotide Sequence Databases; 国際塩基配列データベース) とは、全世界の研究者が実験によって決定した塩基配列データ、または、その TPA データを DDBJ,EMBL-bank,GenBank のデータバンクが定めたデータ構築規範に沿って収集・編集した上で、提供するものを指します。
INSD は研究者から直接送付された DNA 塩基配列データを編集することによって作成されており、データの単位である「エントリ」の集合として構成されています。
INSD が正式に発行するアクセッション番号は、このようなエントリに対して固有な ID として割り振られます。
INSD のアクセッション番号フォーマット
アルファベット1文字+5桁の数字 (例 A12345) または アルファベット2文字+6桁の数字 (例 AB123456) で構成されています。
アルファベットの部分をプレフィックスと呼びます。
プレフィックスの詳細はこちらをご参照ください。
ただし,例外的に WGS データに発行されるアクセッション番号は12桁 (アルファベット4文字+8桁の数字) で構成されます。
WGS プレフィックスの詳細はこちらをご参照ください。
アクセッション番号と混同されるもの
下記は混同されることが多いのですが、INSD のアクセッション番号ではありません。
INSD 以外のデータベースにおいて発行される ID
- 例)NCBI RefSeq などで使用される NC_123456, NM_123456
INSD が発行する protein_id
- 例)BAA12345.1
protein_id プレフィックスの詳細はこちらをご参照ください。
