国際塩基配列データベースのアクセッション番号
定義
INSD (the International Nucleotide Sequence Databases; 国際塩基配列データベース) とは、全世界の研究者が実験によって決定した塩基配列データ、または、その TPA データを DDBJ,ENA,NCBI が定めたデータ構築規範に沿って収集・編集した上で、提供するものを指します。
INSD が正式に発行するアクセッション番号は、データに対して固有な ID として割り振られます。
INSD アクセッション番号の書式
INSD アクセッション番号は アルファベット+数字 で構成されています。 アルファベットの部分をプレフィックスと呼びます。 アクセッション番号の書式は 登録データ種別 によって、以下のように異なります。
Annotated/Assembled Data
conventional | アルファベット1文字+5桁の数字: 例 A12345 アルファベット2文字+6桁の数字: 例 AB123456 アルファベット2文字+8桁の数字: 例 AB12345678 |
bulk WGS,TSA,TLS |
アルファベット4文字 (For Large Scale Data)+8~10桁の数字: 例 ABCD01012345 アルファベット6文字 (For Large Scale Data)+9~11桁の数字: 例 ABCDEF010123456 |
MGA | アルファベット5文字+7 桁以上の数字: 例 ABCDE1234567 |
protein_id | アルファベット3文字 (protein_id prefix list)+5桁の数字: 例 ABC12345 アルファベット3文字 (protein_id prefix list)+7桁の数字: 例 ABC1234567 |
シークエンサ出力データ
Trace Archive | アルファベット2文字 (TI のみ) +1 桁以上の数字: 例 TI12345678 |
Sequece Read Archive | アルファベット3文字 (SRA prefix list) +6 桁以上の数字: 例 DRA000001 |
研究プロジェクト・サンプル
BioProject | アルファベット5文字 (BioProject prefix list) +1 桁以上の数字: 例 PRJDA123 |
BioSample | アルファベット4文字 (BioSample prefix) +8桁の数字: 例 SAMD00000001 |
INSD アクセッション番号と混同されるもの
下記は混同されることが多いのですが、INSD のアクセッション番号ではありません。
- INSD 以外のデータベースにおいて発行される ID
- RefSeq numbers: 例 NC_123456, NM_123456
- Ensembl numbers: 例 ENSG00000139618
- UniProt accession numbers: 例 P12345, Q01234