最終更新日:2015.9.16.

各データ種別に特有の注意事項

以下に、各データ種別 に特有の注意事項を示します。
配列ファイルアノテーションファイルに関する一般的な注意事項とあわせて参照してください。
あわせて、下記をご参照ください。

 

DIVISION

例: アノテーションファイル内の DIVISION
Entry Feature Location Qualifier Value
COMMON DIVISION division EST
  • DIVISION は、登録データが CON / ENV / EST / GSS / HTC / HTG / STS / SYN / TSA のいずれかに該当することを示します。
  • Qualifier : divisionValue にdivision の名称を示すアルファベット3文字を大文字で入力してください。
  • この情報は、原則として、COMMON エントリに入力してください。

 

DATATYPE

例: アノテーションファイル内の DATATYPE
Entry Feature Location Qualifier Value
COMMON DATATYPE type WGS
  • DATATYPE は、登録データが WGS/TPA のいずれかに該当することを示します。
  • Qualifier: typeValueWGS または、TPA を入力してください。
  • この情報は COMMON エントリに入力してください。

 

KEYWORD

例: アノテーションファイル内の KEYWORD
Entry Feature Location Qualifier Value
KEYWORD keyword ENV
KEYWORD 注意事項
データ種別 keyword の value 注意事項
ENV ENV
EST EST
その他 EST の場合 参照
HTC HTC, その他 その他については、登録毎にご連絡いたします。
HTG HTG, その他 phase に依存、登録毎にご連絡いたします。
GSS GSS
STS STS
WGS WGS
TPA TPA, Third Party Data
TPA:inferential or TPA:experimental どちらか一方が必須
TSA TSA, Transcriptome Shotgun Assembly
その他 登録毎にご連絡いたします。
  • KEYWORD には、DIVISIONDATATYPE で示されたデータ種別を基本に細分化した情報、実験手法に関する情報などを、原則として、規定値で記載します。
  • INSDC が合意した KEYWORD 名と規定値、並びに各 KEYWORD 名の定義につきましては、INSDC agreed methodological keywordsをご参照ください。
  • Qualifier: keywordValue に該当する規定値を入力してください。
  • 赤字で記載されている Value は、当該データ種別において必須となります。
  • 詳細な記載方法に関しましては、登録毎にご連絡いたします。
  • EST に関しましては、EST の場合 もご参照ください。
  • WGS と CON エントリに関しましては、WGS、scaffold CON の場合 もご参照ください。

 

EST の場合

例: 5' EST
Entry Feature Location Qualifier Value
KEYWORD keyword EST
keyword 5'-end sequence (5'-EST)
  • EST では、EST に加えて、以下のいずれかを keyword に必ず記載してください。
    • 5' EST の場合 --- 5'-end sequence (5'-EST)
    • 3' EST の場合 --- 3'-end sequence (3'-EST)
    • 上記を特定できない場合 --- unspecified EST
  • 3' EST では、登録される塩基配列が anti-sense 鎖側、sense 鎖側のどちらであるかを示すため、次のいずれかを COMMENT に記載してください。
例: anti-sense 鎖の登録
Entry Feature Location Qualifier Value
COMMENT line 3'-EST sequences are presented as anti-sense strand.
例: sense 鎖の登録
Entry Feature Location Qualifier Value
COMMENT line 3'-EST sequences are presented as sense strand.

 

HTG の場合

HTG では、その配列決定の段階を示す keyword の記載を推奨しています。
KEYWORD の定義はINSDC agreed methodological keywordsを参照して下さい。

例I: 向きが不明な piece を含む場合
Entry Feature Location Qualifier Value
KEYWORD keyword HTG
keywrod HTGS_PHASE1
keyword HTGS_DRAFT
例 II: 向きが不明な piece が含まない場合
Entry Feature Location Qualifier Value
KEYWORD keyword HTG
keyword HTGS_PHASE2

 

WGS、scaffold CON の場合

例: WGS draft genome
Entry Feature Location Qualifier Value
KEYWORD keyword WGS
keyword STANDARD_DRAFT

WGS や WGS エントリを primary エントリに引用した scaffold 配列(CON エントリ)では、登録される塩基配列の完成度を示すため、次のいずれかを KEYWORD に記載してください。
KEYWORD の定義は INSDC agreed methodological keywords を参照して下さい。

  • STANDARD_DRAFT
  • HIGH_QUALITY_DRAFT
  • IMPROVED_HIGH_QUALITY_DRAFT
  • NON_CONTIGUOUS_FINISHED

 

DBLINK

例: アノテーションファイル内の DBLINK
Entry Feature Location Qualifier Value
DBLINK project PRJDB12345
biosample SAMD90000000
sequence read archive DRR999000
sequence read archive DRR999001
  • DBLINK は、 BioProject ID、BioSample ID、Sequence Read Archive (DRA/ERA/SRA) 他, 特定データベースへのリンクを記載します。
  • 登録データが BioProject Database、BioSample Database に登録されている場合は、Qualifier: projectValue に BioProject ID、Qualifier: biosampleValue に BioSample ID を記載してください。
  • 登録データが次世代シーケンサ由来のアセンブルで、raw reads が Sequence Read Archive に登録されている場合、Qualifier: sequence read archiveValue に対応する Run データのアクセッション番号を入力してください。
  • BioProject Database, BioSample Database, Sequence Read Archive もご参照ください。

 

locus_tag

アノテーションが付加された全ゲノム規模の登録に関しましては、タンパク質産物 (CDS)、あるいは、転写産物(rRNA, tRNA など)を示す Biological featurelocus_tag を付加することを推奨しています。
locus_tag prefix は事前に BioProject Database で BioProject ID を申請する際に取得して下さい。

 

source: ff_definition

例: アノテーションファイル内の ff_definition
Entry Feature Location Qualifier Value
source 1..516 organism Mus musculus
mol_type mRNA
ff_definition Mus musculus mRNA, clone: @@[clone]@@
clone PC0110
ff_definition記述フォーマット
データ種別 ff_definition記述フォーマット
WGS [scientific name] DNA, contig: [contig id], [other information]
BAC/YAC genomic clones in unfinished phase (HTG) [scientific name] DNA, chromosome [chromosome, map], [BAC/YAC] clone: [clone name]、*** SEQUENCING IN PROGRESS ***
BAC/YAC genomic clones in finished phase [scientific name] DNA, chromosome [chromosome, map], [BAC/YAC] clone: [clone name]
EST [scientific name] [mol_type], clone: [clone name], [other information]
EST [scientific name] cDNA, clone: [clone name], [other information]
GSS [scientific name] DNA, clone: [clone name], [other information]
STS [scientific name] DNA, [chromosome, map], [marker name], sequence tagged site
その他 登録毎にご連絡いたします。
  • ff_definition は、The DDBJ/EMBL/GenBank Feature Table: Definition には定義されていない DDBJ 登録専用 Qualifier です。必要な場合にのみ、1エントリに1つ記載します。
  • Biological feature である sourceQualifier: ff_definition を入力します。
  • ff_definition の記載内容は、DDBJ flat file において DEFINITION 行に反映されます。詳細はアノテーションファイルとフラットファイルの対応関係サンプルアノテーションファイル をご参照ください。
  • ff_definitionValue には、通常、同じ source feature 内にある他の Qualifier から Value を引用することが多いため、引用のためのメタ表記を用意しております。例に示したように @@[clone]@@ の形式で、Value を引用する Qualifier の名称@@[]@@ で括り記載しておきますと、DEFINITION 行に反映する際に対象 Value に置換されます。
  • 上記表に示した記述フォーマットを基本としますが、ff_definition の詳細な記載方法に関しましては、登録毎にご連絡いたします。

 

assembly_gap: Sequencing Gap Region

HTG に代表される大規模ゲノム配列やESTアセンブルによるトランスクリプトーム (TSA) 配列の登録などにおいて、アセンブル途上、難読領域であるなどの理由により生じる sequencing gap を示すために配列ファイルでは、配列中に 'n' を記載します。このとき、アノテーションファイルでは、その sequencing gap 領域を下記の要領で、assembly_gap feature を用いて示す必要があります。

例: アノテーションファイル内の assembly_gap
Entry Feature Location Qualifier Value
assembly_gap 101..200 estimated_length unknown
gap_type within scaffold
linkage_evidence paired-ends
  • assembly_gap feature は Biological feature の1つですが、特殊な書式になります。
  • assembly_gap では、location に join, order, complement を使用することはできません。

長さが不明の場合

長さが判明していないギャップ領域については、登録者によって指定された一律の長さ (1000 bp未満のreasonableな長さ) の 'n' で記述する規則となっております。
また、Qualifier: estimated_lengthValueunknown と記載します。
但し、CON divisionではない transcriptome エントリ (TSA division など) には、Valueunknown を記載することができません。

長さが予測されている場合

長さが判明しているギャップ領域については、配列の相当位置に推定される長さの 'n' で記述する規則となっております。
また、Qualifier: estimated_lengthValueknown と記載します。

 

TOPOLOGY

例: アノテーションファイル内の TOPOLOGY
Entry Feature Location Qualifier Value
TOPOLOGY circular
  • TOPOLOGY は登録塩基配列全体の形状が環状で、最初の塩基と最後の塩基が実際には連続している場合に記載する必要があります。
    i.e. 環状ウイルスゲノムの全長など
  • フラットファイルでは、topologyLOCUS 行に反映されます。詳細はサンプルアノテーションファイルを参照してください。

 

TPA/TSA: PRIMARY_CONTIG プライマリーエントリ引用

例: アノテーションファイル内の PRIMARY_CONTIG
Entry Feature Location Qualifier Value
PRIMARY_CONTIG 1..438 entry ZZ000010.1
primary_bases 1..438
PRIMARY_CONTIG 377..696 entry ZZ000011.1
primary_bases 1..320
complement
PRIMARY_CONTIG 590..1191 entry ZZ000022.0
primary_bases 1..601
PRIMARY_CONTIG feature で使用可能な qualifier
Qualifier Value 記述時の注意事項
entry 引用するエントリのアクセッション番号を(バージョン番号とともに)入力する
primary_bases 各配列の領域を入力する 例) 1..500
complement 引用するエントリが相補鎖である場合に入力が必要
  • DATATYPE/typeTPA、もしくは DIVISION/divisionTSA を指定しておく必要があります。
  • PRIMARY_CONTIG, entry, および primary_bases は、プライマリーエントリからの配列引用情報を記載するために設けられた TPA/TSA データ登録専用の Feature, Qualifier です。
  • PRIMARY_CONTIG には、引用後の結果として配列(TPA/TSA)上の位置情報、および、引用したプライマリーシークエンスの(バージョンの付いた)アクセッション番号とその位置情報を必ず入力していただきます。
  • Location に join, order, complement を使用することはできません。同じ entry を引用する場合も location 単位で PRIMARY_CONTIG を複数記述してください。
  • entry には引用したアクセッション番号(とバージョン番号)を入力します。
  • プライマリーシークエンスが DDBJ/EMBL-Bank/GenBank に登録されている場合は、バージョンの付いたアクセッション番号を記載します。引用したアクセッション番号のデータが、TPA/TSA データ登録時点では、まだ公開されていない場合は、バージョン番号は、0 [zero]と入力してください。
  • primary_bases には引用したプライマリーシークエンスの位置情報を入力します。
  • complement はプライマリーシークエンスが相補鎖に相当する場合に入力します。
  • 詳細はサンプルアノテーションファイルアノテーションファイルとフラットファイルの対応関係を参照してください。
ページの先頭へ戻る