国際塩基配列データベースのアクセッション番号

定義

INSD (the International Nucleotide Sequence Databases; 国際塩基配列データベース) とは、全世界の研究者が実験によって決定した塩基配列データ、または、その TPA データを DDBJ，ENA，NCBI が定めたデータ構築規範に沿って収集・編集した上で、提供するものを指します。

INSD が正式に発行するアクセッション番号は、データに対して固有な ID として割り振られます。

INSD アクセッション番号の書式

INSD アクセッション番号はアルファベット＋数字で構成されています。アルファベットの部分をプレフィックスと呼びます。アクセッション番号の書式は登録データ種別によって、以下のように異なります。

Annotated/Assembled Data

conventional	アルファベット１文字＋５桁の数字: 例 A12345 アルファベット２文字＋６桁の数字: 例 AB123456 アルファベット２文字＋８桁の数字: 例 AB12345678
bulk WGS,TSA,TLS	アルファベット４文字 (For Large Scale Data)＋８～１０桁の数字: 例 ABCD01012345 アルファベット６文字 (For Large Scale Data)＋９～１１桁の数字: 例 ABCDEF010123456
MGA	アルファベット５文字＋７桁以上の数字: 例 ABCDE1234567
protein_id	アルファベット３文字 (protein_id prefix list)＋５桁の数字: 例 ABC12345 アルファベット３文字 (protein_id prefix list)＋７桁の数字: 例 ABC1234567

シークエンサ出力データ

Trace Archive	アルファベット２文字 (TI のみ) ＋１桁以上の数字: 例 TI12345678
Sequece Read Archive	アルファベット３文字 (SRA prefix list) ＋６桁以上の数字: 例 DRA000001

研究プロジェクト・サンプル

BioProject	アルファベット５文字 (BioProject prefix list) ＋１桁以上の数字: 例 PRJDA123
BioSample	アルファベット４文字 (BioSample prefix) ＋８桁の数字: 例 SAMD00000001

INSD アクセッション番号と混同されるもの

下記は混同されることが多いのですが、INSD のアクセッション番号ではありません。

INSD 以外のデータベースにおいて発行される ID: RefSeq numbers: 例 NC_123456, NM_123456; Ensembl numbers: 例 ENSG00000139618; UniProt accession numbers: 例 P12345, Q01234