• getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature Table
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 配列データ記載例
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • HTG
    • Environmental sample
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • 識別子について

識別子について

塩基配列の登録には生物名 (/organism qualifier) が必須です。種を同定していない場合、 同種から多数の配列を登録するなどの場合、生物名に加えて、識別子の記載が必要になることがあります。

細菌、酵母、など微生物の多くには strain/culture colletion の記載を必要とするケースが多く、 特に微生物の全ゲノム配列には、strain 記載を強く求められています。
細菌では新種報告に、複数の culture collection への寄託が義務とされています。

識別子の種別

記載可能な識別子は大まかに2種類あります。

サンプル生物を対象に割り当て

一般的にはこちらの記載を期待しています。 /strain qualifier が代表的です。他にも /isolate, /culture_collection, /ecotype, /specimen_voucher, /cultivar, /bio_material, /cell_line, などの qualifer があります。

配列を対象に割り当て

こちらは操作的な記載になります。研究目的により、こちらで記載するほか選択肢がない場面があります。

/clone qualifier, /submitter_seqid qualifier が代表的です。環境サンプルにおける OTU を指す /isolate qualifier, サンプルの状態によっては /bio_material qualifier もこちらの意味になることがあります。つまり、/isolate qualifier は状況により、どちらの意味になることもあり得ます。

/haplotype qualifier は同一配列毎に記載するという意味で該当します。集団遺伝学的なデータの場合、多型関連研究における同一配列の代表データ登録 をご参照ください。

識別子の書式

  • すべてのサンプル識別子は互いに区別されなければなりません。
  • 同一のサンプルは同一の識別子で示してください。
  • 商用サンプル、モデル系統など、公式に割り当てられている場合、そのまま記載願います。
    • ただし、/bio_material, /culture_collection, /specimen_voucher qualifier には traceability を高めるための規定書式がありますので、ご確認ください。
  • 登録者自身が単離・採取したサンプルの場合、ご自身で命名してください。
    • 命名の際、”1”, “2”, “A”, “B” など、単純な記載では、論文内で完結する場合は十分かもしれませんが、塩基配列データベースでは、一意性を維持できない可能性が高いため、避けてください。
    • 例えば、採取地名 (または、採取者) の頭文字、採取年号に通し番号を加えるなどという方法でも一意性が維持されやすくなります ([連番]-[採取地名の頭文字]-[採取年号]、1-MS-2021 など) 。
    • サンプル識別子には生物名、あるいは、生物名の略号を含めないことを強く推奨します。

ただし、こちらでは体系的に管理している訳ではありません。そのため、自身が登録する研究データの範囲内で一意性を保つように命名することが最低条件になります。

識別子各論

識別子が不要な状況

以下の条件を全て満たすようなケースでは識別子を記載する必要はありません。
ただし、記載を禁止する意図はありませんので、必要とお考えでしたら、記載してください。

  • 多細胞生物由来。
  • 登録目的が、種同定、生命地理学、疫学、集団遺伝学に類することではない。
  • 登録目的が、遺伝子・タンパク質の同定、機能解析など対象生物における一般的性質の記載。

細菌、古細菌

生物種の同定レベル、あるいは、配列の数に関わらず、識別子の記載が求められます。

  • 単離培養を経た純系ならば /strain qualifier
  • 管理団体に寄託、あるいは、分譲を受けているならば /culture_collection qualifier
  • 何らかの理由で純系としての記載が困難な場合に /isolate qualifier

真菌

酵母など単細胞生物では、種同定のレベル、あるいは、配列の数に関わらず、識別子の記載が求められます。

  • 単離培養を経た純系ならば /strain qualifier
  • 管理団体に寄託、あるいは、分譲を受けているならば /culture_collection qualifier
  • 何らかの理由で純系としての記載が困難な場合に /isolate qualifier

キノコなど多細胞生物では、種が同定されていない場合と同種由来の多数の配列を登録する場合に識別子の記載が求められます。

  • 個体識別子としての /isolate qualifier
  • 標本管理団体に寄託、あるいは、分譲を受けているならば /specimen_voucher qualifier
  • 純系ならば /strain qualifier

植物

単細胞の藻類などでは、種同定のレベル、あるいは、配列の数に関わらず、識別子の記載が求められます。

  • 単離培養を経た純系ならば /strain qualifier
  • 管理団体に寄託、あるいは、分譲を受けているならば /culture_collection qualifier
  • 何らかの理由で純系としての記載が困難な場合に /isolate qualifier

多細胞生物では、種が同定されていない場合と同種由来の多数の配列を登録する場合に識別子の記載が求められます。

  • 個体識別子としての /isolate qualifier
  • 標本管理団体に寄託、あるいは、分譲を受けているならば /specimen_voucher qualifier
  • エコタイプは /ecotype qualifier
  • 栽培品種ならば /cultivar qualifier
  • 純系ならば /strain qualifier

動物

原生動物など単細胞生物などでは、種同定のレベル、あるいは、配列の数に関わらず、識別子の記載が求められます。

  • 単離培養を経た純系ならば /strain qualifier
  • 管理団体に寄託、あるいは、分譲を受けているならば /culture_collection qualifier
  • 何らかの理由で純系としての記載が困難な場合に /isolate qualifier

多細胞生物では、種が同定されていない場合と同種由来の多数の配列を登録する場合に識別子の記載が求められます。

  • 個体識別子としての /isolate qualifier
  • 標本管理団体に寄託、あるいは、分譲を受けているならば /specimen_voucher qualifier
  • 育種的品種ならば /note qualifier に “breed: **” の要領で記載
  • モデル生物などの純系、近交系ならば /strain qualifier
  • モデル生物の変異系統の樹立、あるいは、その分譲ならば /bio_material qualifier
  • 単離培養して細胞株を樹立、あるいは、その分譲ならば /cell_line qualifier

ヒト

ヒト由来配列の場合、多型記述などの目的で個体識別子の記載が必要なケースがあると思います。
その場合でも、個体識別子は匿名化されている必要があります。個人名、あるいは、個人名を類推させるような識別子は記載を禁じます。

  • 個体識別子としての /isolate qualifier
  • 単離培養して細胞株を樹立、あるいは、その分譲ならば /cell_line qualifier

ウイルス

通常は /isolate qualifier の記載を強く推奨します。
SARS-CoV-2 やインフルエンザウイルスなどのような高頻度に登録される病原ウイルスでは /isolate qualifier に ICTV が推奨する以下の書式で ID を記載することを強く勧めています。

  • 書式: [virus_type]/[host_common_name]/[locality_name]/[sample_identifier]/[year]
  • 記載例: SARS-CoV-2/human/Japan/A12/2021
virus_type ウイルスの略称、もしくは、genotype 他、タイプ区分
host_common_name /host qualifier に示す宿主の通用名
locality_name /geo_loc_name qualifier に示す採取地名より国名あるいは地域名
sample_identifier 登録者・採取者が割り当てた任意の識別子・番号
year /collection_date qualifier に示す採取日の年号

厳密には、感染細胞の培養を経るなどしなければ、純系と確認することは難しいですが、慣習的に /strain qualifier を記載されているケースも多いため、受け付けます。
ただし、/isolate qualifier の記載を推奨します。
genotype, genogroup などは、種・系統に準ずるようなもので、サンプル識別子とは なり得ないことにご注意ください。

環境サンプル

通常は /isolate qualifier を個体、または、OTU の識別子と見做して記載してください。
環境サンプルには /strain qualifier は記載できません。
DNA を cloning しており、その clone と対応付けが可能であれば /clone qualifier に clone 名を記載してください。

生物名 (/organism qualifier) と識別子

種、亜種、変種以下のレベルで学名を記載する場合、通常、生物名に識別子を含める必要はありません。
ただし、下記のようなケースにご注意ください。

細菌、古細菌、単細胞の真菌

種を未同定の場合でも、通常は生物名に識別子を含める必要はありません。

  • 新種提唱の準備段階であれば、strain の類を含めて 生物名に記載することを推奨しています。
  • シアノバクテリアは分類体系が特殊なため、生物名に strain を含めて記載する必要があります。
  • 微生物などで全ゲノム規模の配列を登録する場合、現在は種を未同定の場合、strain などを生物名に含めることを原則としています。
    以前は種同定されているか否かに関わらず、全ゲノム規模の配列登録では、生物名に strain などを含めることを必須にしていました。

動物、植物、多細胞の真菌

新種提唱も含めて種が未同定の場合、生物名に識別子を含めて記載する必要があります。
生物名に含める識別子は、必ずしも個体単位である必要はありませんので、同種と見做している単位 (OTU) 毎に割り当ててください。

ウイルス

  • 他の分類群とは異なり、新種提唱の準備段階でも学名に準じた記載が可能です。新種提唱の場合、生物名に識別子を含めて記載することを推奨します。
  • 2017年以前は、登録頻度の高い病原性ウイルスの場合、strain を生物名に含めて記載する運用を続けていましたが、新規登録分には適用されません。

環境サンプル

ほとんどの場合、種は未同定となりますが、生物名に識別子を含める必要はありません。

Related pages

  • DDBJ 公開形式 (Flat file)
  • Feature key
  • Qualifier key
  • Organism qualifier に記載する生物名
  • 配列データ記載例
  • 多型関連研究における同一配列の代表データ登録