/locus_tag qualifier の記載法

背景

/locus_tag qualifier は, 2003年に導入されました。その導入当初は, ゲノムプロジェクトが その配列データを更新する際などに feature 継承をするための追跡用 ID として自由度の高い記載を可能としていました。

しかし, The American Society for Microbiology からの要請を受けて, 2005年の国際実務者会議において, /locus_tag qualifier の用法が再検討されました。その結果, /locus_tag qualifier を恒久的に一意な ID として維持していくことを目指して, 配列データの登録時に当該ゲノム専用の prefix を割り当てることにより, /locus_tag を記載するように規則が変更されました。

DDBJ においては, ゲノム配列データ登録用に大量登録システム (MSS)をご用意しております。MSS申し込みフォームにおいて, 適宜, 指定していただければ, /locus_tag prefix 割り当てを検討いたします。

ゲノム配列データの登録における /locus_tag の適切な用法

国際実務者会議 (International Collaborators Meeting) において, ゲノムプロジェクトを INSDC に登録するように求めていく, と合意しています。各ゲノムプロジェクトに ID を割り当てることにより, 複数の配列データを各ゲノムプロジェクトに関連付けることが可能になります。この Project ID は, DDBJ フラットファイルにおいては ACCESSION 行と VERSION 行の下に表示されます。ゲノムプロジェクトの登録は DDBJ, EMBL-Bank/EBI, GenBank/NCBI で行うことができます。登録者はゲノムプロジェクトの登録に際し, 同時に /locus_tag prefix の登録を行うことができます。

/locus_tag はゲノム上の全ての gene に体系的に割り当てる識別子(identifier, ID)であり, 生物学関連団体による遺伝子名に代わる ID になります。2組の異なるゲノムの登録者が全く異なる2つのゲノムにおいて全く異なる2つの遺伝子に同じ体系に拠る名称を用いたならば, 混乱を招くことになるでしょう。このようなことが起こることを防ぐために INSD (DDBJ/EMBL/GenBank) では /locus_tag prefix を登録する仕組みを作りました。真核生物でも原核生物でもゲノムの登録者は, そのゲノム登録に先立って prefix を登録してください。そして, 複数の染色体, プラスミドといったプロジェクトの全ての構成要素に同じ /locus_tag prefix を使用してください。

/locus_tag の prefix には英数字のみを使用し, 少なくとも3文字以上でなければなりません。最初の1文字目は英字で始めますが, 2文字目以降は数字でも構いません (例: A1C)。prefixには "-" "_" "*" といったシンボル記号は使用しないでください。/locus_tag においては prefix と tag の値はアンダースコア "_" によって区切ります (例: A1C_00001)。

/locus_tags は, 全てのタンパク質コード遺伝子とタンパク質をコードしない RNA 遺伝子に割り当ててください。/locus_tag はゲノム配列の登録において mRNA, CDS, 5'UTR, 3'UTR, intron, exon, tRNA, rRNA, ncRNA, misc_RNA, などの feature に記載します。repeat_region には /locus_tag qualifier を記載しないでください。同じ値を持つ /locus_tag は ある単一の gene の全ての構成要素に使用します。例えば, ある特定の gene を示す exon, CDS, mRNA といった全ての feature には同じ値を持つ /locus_tag を記載します。また, 1つの /locus_tag には1つの /gene qualifier が対応するようにしてください。すなわち, もし何れかの feature において ある /locus_tag が ある /gene qualifier と対応している場合は, その /gene qualifier で示される遺伝子シンボルのみが, その /locus_tag を含む他の全ての feature にも存在していなければなりません。

/locus_tag はゲノム内の gene に体系的に記載してください。一般的には, ゲノム上での出現順序になることが期待されます。登録者がゲノム配列とその annotation を更新した場合, 新規の gene は, [用例 1] その次に続く使用可能な locus_tag, または, [用例 2] 登録者は最初の locus_tag 割り当ての際に予め gap を残しておくことも可能なので 新規annotationの際にこの gap を埋めるような値を記載すること, の何れかが可能です。

用例 1: /locus_tag 削除と新規追加

       更新前の          更新後の
       登録データ        登録データ
        ABC_0022
                          ABC_4568 (new gene)
        ABC_0023          ABC_0023

用例 2: /locus_tag に予め gap を残しておいた場合の挿入

       更新前の          更新後の
       登録データ        登録データ
        ABC_0020          ABC_0020
                          ABC_0021 (new gene)
        ABC_0030          ABC_0030

禁則: 小数(バージョン類似表記) は行わないでください

       更新前の          更新後の
       登録データ        登録データ
        ABC_0020          ABC_0020
                          ABC_0020.1 (new gene)
        ABC_0030          ABC_0030

プロジェクト内では, 全ての locus_tags の番号付けなどを, タンパク質コード遺伝子, RNA 産物, 由来染色体の別などによらない記載方法とすることを推奨します。

しかしながら, 登録者が染色体番号, RNA 種別などの情報を locus_tag の値に含めることを希望する場合, prefix と underscore の後に それらの情報を加えても構いません:

        ABC_I00001 for gene 1, chromosome I
        ABC_II00001 for gene 1, chromosome II
        ABC_r1112 for ribosomal RNA genes
        ABC_t1113 for tRNA genes

登録者は GenBank/NCBI, EMBL-Bank/EBI, DDBJ の何れか1つにおいて locus_tag prefix と project ID の登録手続きを行うことができます。この手続きは, ゲノム配列データを登録するデータバンクにおいて行ってください。locus_tag prefix 割り当てを申請した際には, 他のプロジェクトとの重複がないか, などの確認を行います。問題なければ, 登録者に locus_tag prefix が割り当てられたことをお知らせします。重複した際は, その旨を登録者にお知らせしますので, 別な重複しない prefix を再検討の上, ご連絡ください。

DDBJ においては, ゲノム配列データ登録用に大量登録システム (MSS)をご用意しております。MSS申し込みフォームにおいて, 適宜, 指定していただければ, /locus_tag prefix 割り当てを検討いたします。

NCBIEBI にも同様のガイドラインがありますので, ご参照ください。

ページの先頭へ戻る