国際塩基配列データベースのアクセッション番号

定義

INSD (the International Nucleotide Sequence Databases; 国際塩基配列データベース) とは、全世界の研究者が実験によって決定した塩基配列データ、または、その TPA データを DDBJ,ENA,NCBI が定めたデータ構築規範に沿って収集・編集した上で、提供するものを指します。

INSD が正式に発行するアクセッション番号は、データに対して固有な ID として割り振られます。

 

INSD アクセッション番号の書式

INSD アクセッション番号は アルファベット+数字 で構成されています。
アルファベットの部分をプレフィックスと呼びます。
アクセッション番号の書式は 登録データ種別 によって、以下のように異なります。

Annotated/Assembled Data

DDBJ (traditional DDBJ) EMBL-Bank/ENA 、 GenBank 相当
general; アルファベット1文字+5桁の数字 (例 A12345) または アルファベット2文字+6桁の数字 (例 AB123456)
WGS; アルファベット4文字 (WGS prefix list) +8~10 桁の数字: 例 AAAA01012345
MGA; アルファベット5文字+7 桁以上の数字: 例 AAAAA1234567
protein_id; アルファベット3文字 (protein_id prefix list) +5桁の数字: 例 AAA12345

シークエンサ出力データ

Trace Archive
アルファベット2文字 (TI のみ) +1 桁以上の数字: 例 TI12345678
Sequece Read Archive
アルファベット3文字 (SRA prefix list) +6 桁以上の数字: 例 DRA000001

研究プロジェクト・サンプル

BioProject
アルファベット5文字 (BioProject prefix list) +1 桁以上の数字: 例 PRJDA123
BioSample
アルファベット4文字 (BioSample prefix) +8桁の数字: 例 SAMD00000001

 

アクセッション番号と混同されるもの

下記は混同されることが多いのですが、INSD のアクセッション番号ではありません。

INSD 以外のデータベースにおいて発行される ID
RefSeq numbers: 例 NC_123456, NM_123456
Ensembl numbers: e例 ENSG00000139618
UniProt accession numbers: 例 P12345, Q01234

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ページの先頭へ戻る