• DDBJ Search で新規公開・再公開された DRA が検索できません
  • DRA 検証処理における不具合
  • (5/3-5/6) ゴールデンウィーク中の対応について

国際塩基配列データベースのアクセッション番号

  • ホーム
  • insdc
  • 国際塩基配列データベースのアクセッション番号

定義

INSD (the International Nucleotide Sequence Databases; 国際塩基配列データベース) とは、全世界の研究者が実験によって決定した塩基配列データ、または、その TPA データを DDBJ,ENA,NCBI が定めたデータ構築規範に沿って収集・編集した上で、提供するものを指します。

INSD が正式に発行するアクセッション番号は、データに対して固有な ID として割り振られます。

INSD アクセッション番号の書式

INSD アクセッション番号は アルファベット+数字 で構成されています。 アルファベットの部分をプレフィックスと呼びます。 アクセッション番号の書式は 登録データ種別 によって、以下のように異なります。

Annotated/Assembled Data

conventional アルファベット1文字+5桁の数字: 例 A12345
アルファベット2文字+6桁の数字: 例 AB123456
アルファベット2文字+8桁の数字: 例 AB12345678
bulk
WGS,TSA,TLS
アルファベット4文字 (For Large Scale Data)+8~10桁の数字: 例 ABCD01012345
アルファベット6文字 (For Large Scale Data)+9~11桁の数字: 例 ABCDEF010123456
MGA アルファベット5文字+7 桁以上の数字: 例 ABCDE1234567
protein_id アルファベット3文字 (protein_id prefix list)+5桁の数字: 例 ABC12345
アルファベット3文字 (protein_id prefix list)+7桁の数字: 例 ABC1234567

シークエンサ出力データ

Trace Archive アルファベット2文字 (TI のみ) +1 桁以上の数字: 例 TI12345678
Sequece Read Archive アルファベット3文字 (SRA prefix list) +6 桁以上の数字: 例 DRA000001

研究プロジェクト・サンプル

BioProject アルファベット5文字 (BioProject prefix list) +1 桁以上の数字: 例 PRJDA123
BioSample アルファベット4文字 (BioSample prefix) +8桁の数字: 例 SAMD00000001

INSD アクセッション番号と混同されるもの

下記は混同されることが多いのですが、INSD のアクセッション番号ではありません。

INSD 以外のデータベースにおいて発行される ID
RefSeq numbers: 例 NC_123456, NM_123456
Ensembl numbers: 例 ENSG00000139618
UniProt accession numbers: 例 P12345, Q01234

Related pages

  • 登録データ種別
  • データ公開原則
  • Prefix Letter List