ACCESSION

INSD が発行する登録番号をアクセッション番号と呼んでいます。

Conventional sequence data

アルファベット1文字+5桁の数字(例 A12345)または、アルファベット2文字+6桁の数字(例 AB123456)で構成されています。
アルファベットの部分をプレフィックスと呼びます。
プレフィックスのリストも ご参照ください。

複数のエントリを統合した場合や、データ登録後に内容が大幅に変更された場合などには、新規にアクセッション番号を発行することがあります。この際、新規のアクセッション番号(プライマリアクセッション番号)に対して、既存のアクセッション番号はセカンダリアクセッション番号となります。フラットファイルには先頭にプライマリアクセッション番号、2つ目以降にセカンダリアクセッション番号を記載します。プライマリアクセッション番号、あるいはセカンダリアクセッション番号、どちらの番号で検索しても,同じ変更後のデータが検索されます。


ACCESSION   AB999999 AB888888 AB777777

AB999999 -- プライマリアクセッション番号
AB888888 AB777777 -- セカンダリアクセッション番号

Bulk sequence data; WGS, TSA, TLS

WGS, TSA, TLS に発行されるアクセッション番号はアルファベット 4 文字 + 8 桁(9 または 10 桁になることがあります)の数字で構成されます。
アルファベットの部分をプレフィックスと呼びます。
For Large Scale Data (four prefix)も ご参照ください。
アクセッション番号は以下の内容を表しています。

例:ZZZZ01000001
  ZZZZ -- アルファベット 4 文字 -- プロジェクトを区別する prefix
    01 -- 2 桁の数字            -- データセットのバージョン番号
000001 -- 6 桁の数字            -- エントリ(各配列の)番号(エントリ数に応じて 7 桁または 8 桁になる場合があります)

データセットが更新されるとデータセットのバージョン番号が上がります。 例:ZZZZ02000001


ACCESSION   ZZZZ01000001 ZZZZ01000000

ZZZZ01000001 -- プライマリアクセッション番号
ZZZZ01000000 -- セットID

MGA データ

Master record に表示される番号はリソースセットに対する番号でデータバンク側が割り振ります。
番号はアルファベット 5 文字+ 7 桁の数字(例 ABCDE0000001)で構成されています。
当該リソース配下の配列エントリのアクセッション番号は "MGA行" に記載されています。
アクセッション番号は以下の内容を表しています。

例:ABCDE0000001
     AB -- 1-2番目の文字 -- プロジェクト毎に割り振られるID (プロジェクトID *1)
    CDE -- 3-5番目の文字 -- 各プロジェクトにおけるリソース *2に割り振られるID
0000001 -- 7桁の数字     -- リソース配下の配列エントリに割り振られる番号
    *1 各プロジェクトIDに関してはプロジェクトインデックス をご参照ください。
    *2 リソースとは得られた配列の由来が同一であるものの単位を指します。

ACCESSION   ZZZZZ0000000

ZZZZZ0000000 -- リソースセットに対するアクセッション番号
ページの先頭へ戻る