最終更新日:2016.3.18.

アノテーションファイル作成概説

例: アノテーションファイル
Entry Feature Location Qualifier Value
COMMON SUBMITTER ab_name Robertson,G.R.
ab_name Mishima,H.
contact Hanako Mishima
email mishima@ddbj.nig.ac.jp
phone 81-55-981-6853
fax 81-55-981-6853
phext 3207
institute National Institute of Genetics
department DNA Data Bank of Japan
country Japan
state Shizuoka
city Mishima
street Yata 1111
zip 411-8540
REFERENCE title Mouse Genome Sequencing
ab_name Robertson,G.R.
ab_name Mishima,H
year 2012
status Unpublished
COMMENT line Please visit our website
line URL: http://www.ddbj.nig.ac.jp/
CLN01 source 1..12297 organism Mus musculus
mol_type genomic DNA
clone PC0110
chromosome 8
CDS join(<1..456,609..879,1070..1213) product protein kinase
codon_start 2
CLN02 source 1..12393 organism Mus musculus
mol_type genomic DNA
clone PC0210
chromosome 8
CDS 9365..9640 product hypothetical protein

アノテーションファイル作成のための基本ルール

  • アノテーションファイルは Entry, Feature, Location, Qualifier, Value の 5 カラムで構成されています。
  • 赤字で記載されている項目は入力必須項目ですので、必ず入力してください。
  • Entry には、配列ファイル作成概説で示した配列ファイルと対応するエントリ名を入力してください。エントリ名を入力後、次のエントリが始まる行までは、Entry カラムには何も入力しないでください。
  • Feature には Biological feature独自に規定された DDBJ 登録用 feature の2つのタイプがあります。各 Feature の記載方法については、以下で解説します。
  • Feature 入力後、次の Feature が始まる行までは、Feature カラムには何も入力しないでください。
  • Location は、Biological featurePRIMARY_CONTIGFeature の記載に隣接するカラムにのみ、記載が必要です。
  • Qualifier は各行に 1 つ記載します。記載可能な QualifierFeature に依存します。詳細は以下で解説します。
  • Value の記載は Qualifier に依存します。各 Qualifier の説明に従って記載してください。
  • アノテーションファイルでは、空行が存在した時点でファイルの終わりと判断されます。従って、複数エントリを入力する場合は、登録する全てのエントリの入力が終わるまで、途中に空行を作らずに入力してください
  • 必ず、UME または Parser を用いて、配列ファイルアノテーションファイルの書式をご確認ください。

共通情報 COMMON の入力について

  • アノテーションファイルでは全てのエントリに共通な情報を入力するために COMMON というエントリ名を使用することができます。
  • COMMON エントリに記載された情報はデータベースに読み込まれる際に全てのエントリに反映されます。
  • 通常 COMMONSUBMITTER/REFERENCE/COMMENT 等で使用しますが, Feature 以下(Feature, Location, Qualifier, Value)の情報が全てのエントリに共通であれば、Biological feature でも記載できます。
  • DATE、hold_date は必ず COMMON エントリに入力してください。

参考資料について

アノテーションファイルの作成に際しては、以下の参考資料をご活用ください。

 

SUBMITTER

例: アノテーションファイル内の SUBMITTER
Entry Feature Location Qualifier Value
COMMON SUBMITTER ab_name Robertson,G.R.
ab_name Mishima,H.
consrtm Mouse Genome Consortium
contact Hanako Mishima
email mishima@ddbj.nig.ac.jp
url http://www.ddbj.nig.ac.jp
phone 81-55-981-6853
fax 81-55-981-6853
phext 3207
institute National Institute of Genetics
department DNA Data Bank of Japan
country Japan
state Shizuoka
city Mishima
street Yata 1111
zip 411-8540
SUBMITTER で使用する Qualifier のリスト
Qualifier Value 使用可能文字(注意事項) Value 文字上限数
ab_name (登録者名) 英, .[period], ,[comma], -[hyphen], ' [apostrophe] 64
contact (コンタクトパーソン) 英, .[period], ,[comma], -[hyphen], ' [apostrophe], [space]
(first, middle, last name の順で間に space を入れて入力)
first(64),
middle(128), last(64)
consrtm (コンソーシアム名) 英, 数, [space], -[hyphen], ' [apostrophe], .[period], _[underscore], .[comma], ( ) # & @ / ; : + * 255
email 英, 数, @, .[period], -[hyphen], _[underscore] 64
url [space] 以外 255
phone, fax, phext 数, -[hyphen] (国番号の頭に + はつけない) 16
institute, department [back-slash], ` [back-quote] 以外 255
country, state 英, 数, [space], -[hyphen], '[apostrophe], .[period], _[underscore], ,[comma], ( ) # & @ / ; : + * 32
city 英, 数, [space], -[hyphen], '[apostrophe], .[period], _[underscore], ,[comma], ( ) # & @ / ; : + * 64
street 英, 数, [space], -[hyphen], '[apostrophe], .[period], _[underscore], ,[comma], ( ) # & @ / ; : + * 255
zip 英, 数, -[hyphen] 16
  • 赤字で記載されている項目 (Feature: SUBMITTER, Qualifier: ab_name, contact, email, phone, fax, institute, country, city, street, zip) は入力必須項目です。必ず入力してください。(ただし、consrtm が入力されている場合、ab_name, contact は省略可能です)
  • SUBMITTER は各エントリに一件必ず入力していただく必要がありますが、全件共通の SUBMITTER を入力する場合には COMMON エントリに入力してください。エントリ毎に異なる SUBMITTER を入力したい場合には個々のエントリに記載してください。なお、COMMON エントリに SUBMITTER を記載した場合は、他の全てのエントリで SUBMITTER を使用することはできません。
  • SUBMITTERQualifier: ab_name には複数の登録者を入力できます。DDBJ のフラットファイルには、ここで入力された順番に登録者が記載されます。複数の登録者の記載を強く推奨しています。登録者の中から一名、コンタクトパーソンQualifier: contact で再度指定してください。contactValue には、full name を記載してください。
  • Qualifier: ab_name の Value には、論文等の著者名に準ずる形式で、氏名の略記を記載してください。
    • 形式:
          last name[comma]first name の頭文字[period]middle name の頭文字[period]
    • 例:
      • Miyashita,Y.
      • Robertson,G.R.

    形式によって (氏名にハイフンを含む等)、Parser によるチェックで WAR レベルのメッセージが表示されることがありますが、記述内容に問題がない場合は、そのまま記載可能です。

  • ab_name 以外の QualifierValue には、コンタクトパーソンの情報をそれぞれ一件ずつしか入力できません。複数の研究機関の情報を入力したい場合には、別途、ご連絡ください。

 

REFERENCE

例: アノテーションファイル内の REFERENCE
Entry Feature Location Qualifier Value
REFERENCE title Sequence and analysis of mouse ch.8
ab_name Robertson,G.R.
ab_name Mishima,H.
status Published
year 2003
journal Nature
volume 8
start_page 15
end_page 20
REFERENCE で使用する Qualifier のリスト
Qualifier Value 使用可能文字(注意事項) Value 文字上限数
title (論文のタイトル) [back-slash], ` [back-quote] 以外 255
ab_name (著者名) 英, .[period], ,[comma], -[hyphen], ' [apostrophe] 64
consrtm (コンソーシアム名) 英, 数, [space], -[hyphen], ' [apostrophe], .[period], _[underscore],
,[comma], ( ) # & @ / ; : + *
255
status 以下の何れか
Unpublished, In press, Published
-
year 数(西暦4桁) 4
journal [back-slash], ` [back-quote] 以外 (PubMed type abbreviation を入力) 128
volume, start_page, end_page 英, 数, -[hyphen] 8
  • 赤字で記載されている Qualifier (ab_name (あるいは consrtm), title, status, year)は必須です。必ず入力してください。
  • Qualifier: ab_name の Value には、論文等の著者名に準ずる形式で、氏名の略記を記載してください。
    • 形式:
          last name[comma]first name の頭文字[period]middle name の頭文字[period]
    • 例:
      • Miyashita,Y.
      • Robertson,G.R.

    形式によって (氏名にハイフンを含む等)、Parser によるチェックで WAR レベルのメッセージが表示されることがありますが、記述内容に問題がない場合は、そのまま記載可能です。

  • status が "In Press" の場合は、Qualifier: journal も必須となります。
  • status が "Published" の場合は、Qualifier: journal, volume, start_page, end_page も必須となります。
  • REFERENCE は各エントリに最低1つ、必須となります。
  • 登録する塩基配列に関する REFERENCE 情報が全件に共通する場合は、COMMON エントリに入力してください。エントリ毎に異なる参考文献の情報を入力したい場合には個々のエントリに記載してください。
  • 今後論文に投稿する予定のない場合にも、status を "Unpublished" として REFERENCE を入力してください。
  • journal には雑誌の PubMed type abbreviation を入力して下さい。
  • REFERENCE を複数入力する場合には、登録する塩基配列を掲載する予定の論文、あるいは、既に掲載されている論文情報を REFERENCE の筆頭に入力し、参考文献はそれ以降に入力してください。
  • COMMON エントリと個々のエントリの双方に REFERENCE を入力した場合には、COMMON の情報から順に、フラットファイル上に反映されます。

 

DATE

例: アノテーションファイル内の DATE と hold_date
Entry Feature Location Qualifier Value
COMMON DATE hold_date 20161125
  • DATE にはデータの公開予定日(hold_date)を年月日の順で、半角数字 8 桁(例:20161125)で入力してください。
  • - [hyphen] や / [slash] などの区切り文字を使用した場合はエラーとなります。
  • 登録作業後、データの即時公開をご希望の場合には、DATE を入力しないでください。
  • DATE/hold_date は COMMON エントリに入力してください。公開予定日が異なる場合には、ファイルを公開予定日毎に分けて作成してください。
  • 公開予定日をご指定いただいた場合は、データ公開原則に基づいて、公開作業を行ないます。

 

COMMENT/ST_COMMENT

例: アノテーションファイル内の COMMENT と ST_COMMENT
Entry Feature Location Qualifier Value
COMMENT line This clone was obtained at our laboratory.
COMMENT line Please visit our web site.
line URL:http://www.ddbj.nig.ac.jp
ST_COMMENT tagset_id Genome-Assembly-Data
Finishing Goal High Quality Draft
Current Finishing Status High Quality Draft
Assembly Method GS De Novo Assembler v. 2.0
Assembly Name Mmus_1.0
Genome Coverage 50x
Sequencing Technology 454 GS FLX; ABI 3730

COMMENT には "一般 COMMENT" と "structured COMMENT" の 2 種類あります。以下に詳細をお示しします。

COMMENT (一般 COMMENT)

  • 一般 COMMENT は必要に応じて登録者が自由な記述形式で内容を入力することができます。
  • COMMENT は DDBJ フラットファイル上では 60 文字(スペースを含む)で自動的に改行されますが、任意の位置で改行したい場合には、Qualifier: line を指定して改行位置で Value を分けてください。
  • Qualifier: lineValue には、 [back-slash] 以外の文字を使用可能です。
  • 全件共通の COMMENTCOMMON エントリに入力してください。エントリ毎に異なる COMMENT を入力する場合には個々のエントリに記載してください。
  • 内容の異なる COMMENT を入力する場合には、COMMENT と COMMENT の間に空行を入れるため、COMMENT Feature をそれぞれに作成してください。
  • COMMON エントリと個々のエントリの双方に COMMENT を入力した場合には、COMMON から順に、フラットファイル上に反映されます。また、複数の COMMENT を入力した場合は、アノテーションファイルに入力した順番でフラットファイル上に反映されます。
  • EST の場合、特殊な COMMENT の記載が必要なことがあります。

ST_COMMENT (Structured COMMENT)

  • ST_COMMENT は一定のルールに従って構造化された COMMENT (structured COMMENT) を記載するための feature です。
  • ST_COMMENT はユーザー定義も可能ですが、genome project (WGS も含む)、transcriptome project (TSA も含む) などの登録には既定書式があり、記載する必要があります。
  • ST_COMMENT はデータセット名 (tagset_id) と項目名 (ユーザー定義 Qualifier) 、各項目の値 (Value)で構成されます。
  • Structured COMMENT の開始行ではQualifier に tagset_id 、ValueCOMMENT のタイトルを入力します。
    • genome project の場合は tagset_id に Genome-Assembly-Data を入力します。
    • transcriptome project の場合は tagset_id に Assembly-Data を入力します。
  • 項目名を Qualifier として入力します。各項目に対応する具体的な内容を Value に入力します。
    • Genome-Assembly-Data の場合は Qualifier に下記を使用します。
      Genome-Assembly-Data で使用する Qualifier のリスト
      Qualifier 意味・内容
      Finishing Goal genome project の最終的な到達目標。規定値あり。
      Current Finishing Status genome project の現状の到達点。規定値あり。
      Assembly Method アセンブルに使用したソフトの名前とそのバージョン。必須。
      Assembly Name ゲノムアセンブリの名称・バージョン。真核生物の場合、必須。
      Genome Coverage ゲノム配列決定の深度、被覆度換算。必須。
      Sequencing Technology 配列解析に使用されたシークエンサー。必須。
    • Assembly Name の推奨書式は [organism の種名 (or 一般名)] + [version 数値] です(例;Btau_4.0)。
    • Finishing GoalCurrent Finishing Status では、値を下記に制限しています。
      "Standard Draft", "High-Quality Draft", "Improved High-Quality Draft", "Noncontiguous Finished", "Finished"
    • Assembly-Data の場合は Qualifier に下記を使用します。
      Assembly-Data で使用する Qualifier のリスト
      Qualifier 意味・内容
      Assembly Method アセンブルに使用したソフトの名前とそのバージョン。必須。
      Assembly Name アセンブリの名称・バージョン。
      Coverage 配列決定の深度、被覆度換算。
      Sequencing Technology 配列解析に使用されたシークエンサー。必須。
  • 記載の可否や内容等については登録毎に個別に対応しますので、MSS の担当者にお問い合わせください。

 

Biological Feature

例: アノテーションファイル内の source と CDS feature
Entry Feature Location Qualifier Value
source 1..12297 organism Mus musculus
mol_type genomic_DNA
chromosome 8
clone PC0110
CDS join(<1..456,609..879,1070..1213) product protein kinase
codon_start 2
rRNA 1279..3000 product 18S rRNA
CDS complement(join(3213..4981,9901..11677)) gene tbpA
product TATA-box binding protein

Feature/Location/Qualifier

  • Biological feature の定義、記述方法の詳細については、Feature Table Definitionをご参照ください。
  • Feature Table Definition では、各 Qualifier の前に / [slash] が記述されておりますが、アノテーションファイルでは / を入力しないでください。
  • 赤字で記載されている sourceorganism、mol_type は各エントリに最低1つ、必須となります。
  • Location の記載ルールは、Location の記述法を ご参照ください。
  • Feature で使用可能な QualifierFeature/Qualifier 対応表 にて確認できます。
    一部の Feature には、入力必須 Qualifier が指定されています。
    対象の Feature で、Mandatory qualifier と指定されているものは必ず入力してください。
    大文字と小文字の区別, _ [underscore] の使用も対応表の表記に従ってください。
  • あわせて、サンプルアノテーションファイル登録の見本も ご参照ください。
  • CDS feature を含むデータは、必ず、UME または transChecker を用いてアミノ酸翻訳をご確認ください。
  • CDS の記載に際しましては、タンパク質コード配列; CDS feature についてを ご参照ください。

Value

 

COMMON エントリの活用

共通情報 COMMON の入力について

  • アノテーションファイルでは全てのエントリに共通な情報を入力するために COMMON というエントリ名を使用することができます。
  • COMMON エントリに記載された情報はデータベースに読み込まれる際に全てのエントリに反映されます。
  • 通常 COMMONSUBMITTER/REFERENCE/COMMENT 等で使用しますが、Feature 以下(Feature, Location, Qualifier, Value)の情報が全てのエントリに共通であれば、Biological feature でも記載できます。

location に使用可能なメタ塩基番号'E'

例: COMMON に rRNA feature を記載
Entry Feature Location Qualifier Value
COMMON rRNA <1..>E product 16S rRNA

配列長が異なるために Location が異なることを除けば、Feature 以下の Qualifier, Value の情報が全てのエントリで、共通に記載可能なケース、例えば rRNA 部分配列による系統解析、があります。

そのような場合には、COMMON エントリに Feature を記載し location には、最後の塩基番号の代わりにメタ塩基番号として、E を記載することにより、全てのエントリに共通となる FeatureCOMMON エントリに記載することが可能です。

clone, note, ff_definition に使用可能なメタ表記 '@@[entry]@@ '

例: COMMON に source feature を記載
Entry Feature Location Qualifier Value
COMMON source 1..E organism Homo sapiens
mol_type genomic DNA
note contig: @@[entry]@@
ff_definition @@[organism]@@ DNA, contig: @@[entry]@@

Location および clone 名contig 名を除けば、Feature: sourceQualifier, Value の情報が全てのエントリで共通に記載可能なケース、例えば EST, GSS, WGS, WGS scaffold (CON division)、があります。

そのような場合、エントリ名に clone 名や contig 名を使用する場合に限り、Feature: sourceCOMMON エントリに記載することが可能です。

  • Location には、最後の塩基番号の代わりにメタ塩基番号として、E を記載します。
  • 例に示したように、@@[entry]@@ の形式で記載すると、配列ファイルから引用したエントリ名に置換されます。
    @@[entry]@@ が記載できるのは、clone, note, ff_definitionValue に限定されます。
ページの先頭へ戻る