国際実務者会議報告一覧

2017

第30回 国際実務者会議 2017年5月24-26日 静岡県三島市

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2017年は 5月24日-26日に DDBJ で開催され、DDBJENAGenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
あわせて、30周年を記念した シンポジウムを開催しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

生物名記載に関する運用の変更
未同定な細菌と真菌
塩基配列登録の際に、細菌と真菌で未同定な場合、生物名 (/organism qualifier) に主として "[genus name] sp. [ID]" という書式で記載 (例: "Acetobacter sp. ITDI2.1") をお願いしていましたが、今後は "[genus name] sp." (例: "Acetobacter sp.") でお願いいたします。
ただし、全ゲノムを登録する場合と新種提唱の場合は引き続き "[genus name] sp. [ID]" の書式でお願いいたします。
詳細は こちら をご参照ください。
Influenza viruses
Influenza virus の塩基配列を登録する場合、これまで、ウイルス名 (/organism qualifier) に "Influenza [A/B/C/D] virus ([strain name]([serotype]))" (例: "Influenza A virus (A/chicken/Tokyo/2007(H7N7))") などと記載をお願いしてきましたが、2018年 1 月以降は "Influenza [A/B/C/D] virus" (例: "Influenza A virus") で登録を受け付ける予定です。
詳細は こちら をご参照ください。
Targeted Locus Study (TLS) data
2016年から INSDC では TLS の受け付けを開始しました。
今回の会議で TLS に関する実務上の問題について確認し、DDBJ も TLS データ登録受付を開始する予定です。
SRA 格納対象
近年の配列決定に付随する BioNano mapping, methylation, antibiogram などのデータ格納状況について整理しています。
INSDC annotation
INSDC の feature/qualifier を用いた annotation と Sequence Ontology/GFF3 の関係性の整理を開始します。
Assembly (Genome Collection)
2012年から続く連携について実務上の課題を話し合いました。
これに関連して、ゲノムサイズが近縁種の標準から逸脱した場合、配列登録時に注意喚起することを確認しました。

Feature と Qualifier の記載則改訂

以下に挙げる項目が、次回の Feature Table Definition の改訂で適用されます。

2016

第29回 国際実務者会議 2016年5月16-18日 英国ヒンクストン

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2016年は 5月16日-18日に EBI で開催され、DDBJENAGenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

NGS Quality Scores
現在、SRA storage の 70-80% が quality score で占められていますが、多くの解析ツールでは このデータを使用していません。INSDC としては、長期的な視点で SRA データ増大を抑えるためには quality score を2値化・8値化などの不可逆圧縮、あるいは、除去する方が好ましいと感じています。しかし、研究分野が異なれば、この状況は異なるかもしれません。今後の NGS データの受付について、広く研究コミュニティとともに検討したく思います。
SRA Objects VS BioProject/BioSample
SRA study object と BioProject、SRA sample object と BioSample の関係について検討しました。
Targeted Locus Study (TLS) data の紹介
GenBank は 16S rRNA または、他の特定 locus を標的とした配列で構成される operational taxonomic unit クラスター化に用いる大規模データを TLS として受け付けを開始し、WGS のような four-letter prefix のアクセッション番号を割り当てています。
INSDC Data Status
各拠点間のデータ交換について、特に WGSTSA のような大規模データと SRA, BioProject, BioSample における公開状態を示す status の扱いについて検討しました。
Assembly (Genomic Collection)
2012年から続く連携について実務上の課題を話し合いました。

Feature と Qualifier の記載則改訂

以下に挙げる項目が、次回以降の Feature Table Definition の改訂で適用すべく提案されました。

  • rep_origin feature で /function qualifier を記載可能に変更。
  • 複製調節を記載するために regulatory feature の定義を拡張。
  • /regulatory_class qualifier の規定値を追加。
  • その他を示す feature (misc_***) で記載されてきた対象を明確にするため feature を1つ、qualifier を1つ追加。
    • ペプチド成熟過程の中間産物記載用に propeptide feature
    • misc_recomb feature 用に /recombination_class qualifier

2015

第28回 国際実務者会議 2015年5月19-21日 米国ベセスダ

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2015年は 5月19日-21日に NCBI で開催され、DDBJENAGenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

ヒトに由来するデータの扱い
HeLa 細胞に由来するデータGenomic Data Sharing (GDS) ポリシー、クラウドにおけるデータ解析の扱いなど NIH における取り組みについて紹介を受け、ヒトに由来するデータの登録について話し合いました。
INSDC Data Status
各拠点間のデータ交換について、特に公開状態を示す status の情報交換、拠点間の replaced と SRA における suppressed の扱いについて検討しました。
Assembly (Genomic Collection)
2012年から続く連携について実務上の課題を話し合いました。
SRA データ増大への対応
データ増加に対応するためのデータ圧縮手法として cSRA (compressed SRA) と CRAM の取り組みが それぞれ、NCBI と EBI から紹介されました。
これを受けて lossy/lossless な手法によるデータ圧縮の適正な適用などについて話し合いました。
微生物ゲノムの種同定の間違い
Federhen S (2015) の論文と GenBank microbial genomic taxonomy workshop (12-13 May 2015) を受けて、種同定に問題がある登録への対応について話し合いました。

Feature と Qualifier の記載則改訂

以下に挙げる項目は、特に断り書きがない限り、2015年10月以降 Feature Table Definition の改訂後に適用されます。

  • unsure feature の定義を sequencing gap と混同しないように改訂します。
  • /rpt_type qualifier の規定値を増やす方向で修正を検討しています。
    これに伴い、LTR feature は repeat_region feature に統合予定です。
  • 2013年から引き続き、type strain, type specimen などを指定するために、新規に /type_material qualifier を使用することを検討しています。
    仕様の詳細と DDBJ における正式な適用時期は未定です。

2014

第27回 国際実務者会議 2014年5月20-22日 静岡県三島市

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2014年は 5月20日-22日に DDBJ で開催され、DDBJENAGenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

BioSample database
BioSample database では実験的解析に用いられた生物学的な試料に関する記述を収集します。
DDBJ でも 2014年から BioSample 登録受付を開始しています。
2012 年2013 年に引き続き、INSDC として BioSample data を収集し共有するための運用上の課題を検討しました。
WGS など多量のゲノム配列に関する諸問題の検討
データ交換
各拠点間のデータ交換の効率化、書式などを検討しました。
Assembly (Genomic Collection)
2012 年に引き続き、ゲノム配列情報の収集に協力していきます。
/protein_id の運用
同種別 strain のゲノム配列に代表される多数の ortholog を伴う登録で CDS を記載した場合、/protein_id が一見、冗長に多量に消費されるため、新しい /protein_id の発行の仕組などの可能性を検討しました。

SRA XML schema の改訂

SRA XML schema version 2.0 について、SRA metadata を BioProjectBioSample のデータと連携していくために継続検討しています。

Feature と Qualifier の記載則改訂

以下に挙げる項目は、特に断り書きがない限り、2014年10月以降 Feature Table Definition の改訂後に適用されます。

  • 新規に regulatory feature と /regulatory_class qualifier が2014年12月から使用可能になります。
    これに伴い、-35_signal, -10_signal, CAAT_signal, GC_signal, TATA_signal, polyA_signal, attenuator, terminator, promoter, enhancer, RBS, misc_signal はこの新 feature に移行し、廃止されます。
  • Modified Base Abbreviations と /mod_base qualifier の dihydrouridine を示す規定値 d を dhu に修正します。
  • prim_transcriptprecursor_RNA の feature を mRNA 以外にも使用して良いことを明確にするため、定義を修正します。
  • 2013年から引き続き、type strain, type specimen などを指定するために、新規に /type_material qualifier を使用することを検討しています。
    仕様の詳細と DDBJ における適用時期は未定です。

2013

第26回 国際実務者会議 2013年5月21-23日 英国ヒンクストン

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2013年は 5月21日-23日に EBI で開催され、DDBJEMBL-BankGenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

BioSample database
BioSample database では実験的解析に用いられた生物学的な試料に関する記述を収集します。BioSample database の目的は、生物学的な試料に関する情報を一元的に蓄積して提供することです。このサンプル情報には、塩基配列や発現解析といった他のデータベースに格納されているデータに関する研究情報も含まれます。
2012年に引き続き、INSDC として BioSample data を収集し共有するための運用上の課題を検討しました。
DDBJ でも 2014 年中には BioSample 登録受付を開始予定です。
微生物ゲノム登録への strain level taxonomy ID 割り当て
INSDC では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では、微生物のゲノム全長規模の登録に関して、strain level taxonomy ID を割り当てる運用を廃止する方向で2009年から 検討しています。
2014年からは、BioSample data の登録で、現行の微生物のゲノム全長規模の登録への strain level taxonomy ID に代えることで、廃止する予定です。
また、この件についての詳細を論文として発表しました。

INSDC への登録に関する改訂

WGS と scaffold の登録規則を緩和
これまで、sequencing gap を含まない overlaping reads を配列で受け付け WGS entry として登録、sequencing gap を挟んだ scaffold を AGP format で受け付け、CON entry として登録する規則でした。
この方針は、近年、一部の assembly tool の仕様とは合わなくなっており、今後は sequencing gap を含む scaffold なども gap を表現する n を含んだ配列としての登録を可能にするために、規則を緩和します。
INSDC standards for genome assembly submissionを ご参照ください。
TSA データの受付基準を緩和
近年、paired-end sequencing は genome 解析だけでなく transcriptome 解析においても一般的になり、RNAseq assembly のためのソフトウェアにおいても scaffold 構築を行うようになっています。そこで、transcriptome の scaffolded assemblies も assembly_gap feature と適切な /linkage_evidence qualifier、"paired-ends" など、を記載した上で、 TSA エントリとして登録を受け付けます。
TPA データ登録ガイドラインの更新
TPA データ登録のガイドラインを登録の実状に合わせて見直しました。TPA Submission Guidelines を ご参照ください。
主な修正点は以下になります。
  • 1) TPA を Third Party Annotation の略としていましたが、今後は Third Party Data の略とします。
  • 2) TPA に annotation だけではなく、assemble も受け付けることを明記します。
  • 3) TPA に新規に TPA:specialist_db という subcategory を設け、 専門性の高いデータベースなどからの登録を受け付けます。

SRA XML schema の改訂

SRA XML schema version 1.5 を適用しました。変更点は冗長な記載項目の統廃合になります。

SRA XML schema version 2.0 について、SRA metadata を BioProjectBioSample のデータと連携していくために継続検討しています。

SRA のアクセッション番号について、6桁の数字が全て使われた後は、その長さを可変とすることを決定しました。つまり、SRR999999 の次を SRR1000000 とします。

Feature と Qualifier の記載則改訂

以下に挙げる項目は,特に断り書きがない限り,2013年10月の Feature Table Definition の改訂後に適用されます。

  • 5'UTR3'UTR の feature を RNA virus genome に使用して良いことをあらためて確認しました。定義を修正します。
  • /collection_date qualifier の書式を変更します。
    この変更は 2013 年 12 月から適用されます。
    • 1) 書式を ISO 標準書式 に変更し、時間帯とともに時刻を表記可能にします。
      i.e. "2007-04-05T14:30Z"
    • 2) "/" で区切り、期間の表記を可能にします。
      i.e. "2007-03-01T13:00Z/2008-05-11T15:30Z"
  • /ncRNA_class qualifier で "lncRNA" が記載可能になります。
  • /estimated_length qualifier の仕様を変更し、長さ不明の gap においても配列長を 100 bp に固定しなくても良いようにします。
  • type strain, type specimen などを指定するために、新規に /type_material qualifier を使用することを検討しています。
    仕様の詳細と適用時期は未定です。

2012

第25回 国際実務者会議 2012年6月11-13日 米国ベセスダ

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2012年は 6月11日-13日に NCBI で開催され、DDBJEMBL-BankGenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

BioSample database
BioSample database では実験的解析に用いられた生物学的な試料に関する記述を収集します。BioSample database の目的は、生物学的な試料に関する情報を一元的に蓄積して提供することです。このサンプル情報には、塩基配列や発現解析といった他のデータベースに格納されているデータに関する研究情報も含まれます。
EBI と NCBI では既に NCBI BioSampleEBI BioSamples を それぞれ独立に収集しています。DDBJ も含めて INSDC として BioSample data を収集し共有すべく検討しました。
BioSample accession numberの書式は SAM[D|E|N]+8桁の数字 D=DDBJ; E=EBI; N=NCBI を示します。
例: SAMD01234567
微生物ゲノム登録への strain level taxonomy ID 割り当て
DDBJ/EMBL-Bank/GenBank では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では、微生物のゲノム全長規模の登録に関して、strain level taxonomy ID を割り当てる運用を廃止する方向で2009年から 検討しています。
しかしながら、strain level taxonomy ID を割り当てる運用は、少なくとも 2013 年までは廃止せずに続けます。BioSample database が軌道に乗り、サンプル情報を相互に交換して、現行の strain level taxonomy ID に代えることが可能になるまで、2013 年以降も続けるかもしれません。
増加するゲノム配列の登録
登録者からも利用者からも、サンプル・研究目的に配慮したデータ登録への対応が求められており、多様化しています。
特にゲノム配列データに関して、bulk なケースでは reference genome が1つ存在するように保つことを条件に SRA への登録の際 analysis object に BAM, VCF, GFF などを付加するのみで WGS データ (draft assemble) の登録も なしで済ませて良い、という方向で膨大なゲノムデータ登録への対応に合意しました。
反面、reference genome に相当し得る finished level の登録では feature annotation がない状態では、"complete genome" という KEYWORDS を付けないようにすること、feature annotation の精度をある程度以上に保つべく、ソフトウェアツールの提供や guideline を求める community の要望に応えるようにドキュメント整備に努めるなどの対応を検討しました。
また、NCBI の活動として、Assembly (Genomic Collection) が紹介されました。Genomic Collection database は AGP file で assembled genome の構造、または、完全に配列決定された chromosome の情報を収集しています。この活動に INSDC として協力していくことで合意しました

INSDC への登録に関する改訂

MGA の新規受付を終了
2004年から MGA data の登録を受け付けてきましたが、新しい配列決定技術の普及に伴い、このデータモデルは登録の需要がなくなったようです。そこで、MGA data の新規登録受付を終えることにしました。新規の登録には DDBJ Sequence Read Archive (DRA)DDBJ Omics Archive (DOR) をご利用ください。

SRA XML schema の改訂

SRA XML schema version 1.4 が合意され、2012年7月から既に登録に適用されています。

SRA XML schema version 1.5 を検討中で、近い将来、適用予定です。変更点は冗長な記載項目の統廃合になります。

SRA XML schema version 2.0 について、SRA metadata を BioProjectBioSample のデータと連携していくために継続検討しています。

Feature と Qualifier の記載則改訂

以下に挙げる項目は,特に断り書きがない限り,2012年10月の Feature Table Definition の改訂後に適用されます。

  • /anticodon qualifier の書式を拡張し、その配列を含むように変更します。
  • /linkage_evidence qualifier で "pcr" が記載可能になります。
  • /frequency qualifier は source feature では使用不可になります。
  • 新規に /altitude qualifier が source feature で使用可能になります。
  • 規定値を持つ qualifier について、その規定値の改訂は INSDC の web site 上に提示して行くことにより、Feature Table Definition の改訂よりも頻繁に行うように運用を改善します。
  • /mobile_element_type qualifier の規定値が体系的・網羅的でないため、改善を検討中です。2013 年中に改訂予定です。
  • 機能的ではない遺伝子を示すために、/pseudo qualifier を再び使用可能にします。
    ICM2011 で INSDC は 新 qualifier /pseudogene を採択し、旧 /pseudoを使用不可にしました。/pseudogene qualifier は その feature が pseudogene であることを規定値で示されるタイプとともに示すために用います。しかしながら、pseudogene ではない、非機能的遺伝子を示す需要があるため、/pseudo qualifier と /pseudogene qualifier を並行使用することにしました。

2011

第24回 国際実務者会議 2011年5月23-27日 大阪府大阪市

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, その共同事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2011年は 5月23日-27日に 大阪で開催され, DDBJ, EMBL-Bank, GenBank, Sequence Read Archive (SRA), Trace Archive を運営する上での実務的な問題を討論しました。
慣例通りであれば, 三島で開催するところでしたが, 当時は震災に関連した電力不足の懸念などもあり, EBI と NCBI の理解と協力を得て大阪で開催となりました。
会議の報告を以下に まとめました。

検討事項と今後の課題

NCBI における SRA とTrace Archive の事業継続について
NCBI から予算制約のため、SRA と Trace Archive の受付を中止するという発表がありましたが、 NIHは2011年10月1日までは、現在の形でSRAを運用可能な暫定的な資金を確保しています。さらに、NCBI スタッフは 2011年10月1日以降も、広く使用されている次世代シーケンシングデータの archive を継続する手法を開発するために、他のNIHの研究所とNIHからの資金を受けている研究者と協力しています。
加えて, NCBI は見通しの立っている範囲の将来においては、SRA とTrace Archive の既存データへのアクセスを提供し続ける予定であり、特に大規模な研究に関連する他の次世代シーケンシングデータの扱いに関しても NIHの研究所とともに検討を続けています。
BioProject database
INSDC は, 2005年から, 拡張と変更を経て, ゲノム、メタゲノムだけではなく、多様な生物学的データを特定するためのフラグとして project ID の割り当てを検討してきました。2011 年中にはINSDC における BioProject database の協同構築が開始される予定です。DDBJ BioProject Databaseのサイトもご参照ください。
BioProject は単一の組織 (organization) あるいは、共同体 (consortium) に由来する単一の取り組み (initiative) に関連した生物学的データを集めたものです。BioProject レコードを参照することで、その project から生じた多様なデータへのリンクを見つけることが可能です。
BioProject accession numberの書式は PRJ[D|E|N][A-Z]+integer で D=DDBJ; E=EBI; N=NCBI を示します。
例: PRJNA38683

INSDC への登録に関する改訂

INSDC では共通な entry status の定義として下表を用いることを合意しました。
* specific deadlines are available from INSDC partner.
Status name Causes Implications
Public Data are submitted with no request for confidential hold prior to publication or have reached an owner-agreed public release date. Data are fully available
Confidential Data owner requires and indicates to INSDC staff that confidentiality is required until a release date or publication in the literature, whichever comes earlier. Data are not available publicly through any means.

A data release date is recorded for the data, which are subsequently and automatically released as Public on reaching this date or being cited in a publication prior to this date. In the event that a release date must be extended, data owners are required to contact the INSDC partner responsible for the submission with sufficient notice*.
Suppressed
  • (1) Data are found by the owner to be incorrectly annotated or contaminated with no opportunity on the part of the owner to be updated.
  • (2) Data owners realise after sequences have been released that they failed to request a confidential status, either at the time of submission, or within the period between completion of submission processing and the date on which the submission is normally made available to the public (this time period can vary among the INSDC members).
Data are removed where possible from INSDC partner direct search tools (such as text and sequence similarity search) but remain available by accession number.
Replaced Data owners generate new data under new accession identifiers that directly replace existing data; this expected to be rare since replacement data normally use the existing accession identifiers for the records that they replace. Data are removed where possible from INSDC partner direct search tools (such as text and sequence similarity search) but remain available by accession number. Where possible, look-up by original accession identifiers leads to a re-direct to new records available under the new accession identifiers.
Killed
  • (1)The submitter has requested a Confidential status or an extension to an existing release date, but the INSDC partner, or their submissions brokering collaborator, has failed to apply the appropriate release date correctly.
  • (2) Data are found to have been submitted to the databases without the permission of the rightful owner; this is expected to be extremely rare and requires formal institutional contact with the submitting institution.
Data are not directly available publicly from INSDC partners through any means. However, because the data will have been distributed previously as Public, the INSDC partners cannot exercise any control on the resultant use of the data by third parties.
CON division への登録に関して, AGP format version 2.0が2011年12月から適用されます。

SRA XML schema の改訂

  • SRA XML schema version 1.3が 2011年6月から既にSRA データ登録に適用されています。
  • SRA XML schema version 2.0 を SRA データ登録用に検討しています。

Feature と Qualifier の記載則改訂

  • centromeretelomere の2つの feature key が 2011 年10月から新規に使用可能になります。
  • assembly_gap という feature key が 2011年12月から新規に使用可能になります。
    assembly_gap feature は AGP format の改訂と密接に関連します。AGP format のバージョンを上げる際に、CON の sequencing gap に相当する対象には gap feature ではなく、assembly_gap feature が記載されます。
  • 2012年4月から /anticodon qualifier の書式を拡張します。
  • pseudogene annotation の改善について
    ICM2010 の報告にもありますが、Prokaryotic Annotation Workshop から pseudogene annotation の改善に関する要請がありました。さらに2009年から検討していた /pseudo qualifier の用法に関する問題点を改善するために検討しました。新規登録においては/pseudo qualifier の使用を禁止します。これに代わり新規に /pseudogene qualifier を導入し、定義を見直して pseudogene に限定して記載することになりました。この変更は 2012 年 4月に適用する予定です。
  • /whole_replicon qualifier 導入を中止
    ICM2010において、複製単位 (replicon) の全体に相当する配列データに /whole_replicon qualifierをフラグとして記載することを決めました。しかしながら、全ゲノムを代表するデータを蓄積する目的には BioProject record の方がより役に立つであろうと再考しました。 INSDC では /whole_replicon qualifier の追加を中止し、代わりに BioProject record に代表データへ 'genomic molecule' というフラグを新規項目として付加します。

    INSDC における 'genomic molecule' の意味を以下のように定義することで合意しました。:

    The submitter of a genomic assembly defines his/her INSDC sequence record as a 'genomic molecule', 
    meaning a chromosome, plasmid or linkage group, when it is the submitter's intention to use 
    that sequence record permanently as that biological molecule and the sequence is the current 
    reasonable model of the biological molecule.   Whether the record shows a complete representation 
    of the molecule or not is not necessarily a factor under consideration for this submitter-declared 
    'genomic molecule'."

2010

第23回 国際実務者会議 2010年5月19-21日 英国ヒンクストン

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2010年は 5月19日-21日に EBI で開催され, 国際塩基配列データベース (DDBJ, EMBL-Bank, GenBank, Sequence Read Archive, Trace Archive) を運営する上での実務的な問題を討論しました。
当時, アイスランドの火山活動の影響で旅程が変更され, 予定より短い会議となりましたが, 多くの進展がありました。
会議の報告を以下に まとめました。

検討事項と今後の課題

配列データの登録とサンプリング情報記載の標準化に関する動向
ゲノム規模データのサンプリング情報
Genomic Standards Consortium (GSC) からの要請により, Minimum Information about a (Meta)Genome Sequence (MIGS/MIMS) または Minimum Information about an Environmental Sequence (MIENS) に準拠したゲノム規模データのサンプリング情報を配列データに含めることを 2005年から検討してきました。
2009年から, DDBJ/EMBL-Bank/GenBank ではこの種の書式に準拠した内容を structured COMMENT を応用して記載してきましたが, 配列データの外部に参照引用可能なデータベースを設置する方が更新・維持管理が容易であり, コンテンツの冗長性も下がりますので, 参照データベースによる提供も検討しています。
参考: Genomic Standards Consortium on Wikipedia
INSDC 登録に必要最小限の情報
INSDC は, Minimum Information for Biological and Biomedical Investigations (MIBBI) に "minimal submission requirements" を登録する予定です。MIBBI は 多様なコミュニティから報告されるガイドラインを統合して一式の規格とすることを目指すプロジェクトです。
Prokaryotic Annotation Workshop
NCBI が主催した Prokaryotic Annotation Workshop に参加した研究者, 主に J. Craig Venter Institute (JCVI) からの要請を受けて, feature/qualifier の記載規則の拡張を検討しました。主として, feature に典拠となる文献などを どのように記載するか, タンパク質コード配列の産物名 (CDS feature における /product qualifier の値) の記載適正化 などを検討しました。
BioProject database
INSDC は, 2005年から, 拡張と変更を経て, 大規模配列データを特定するためのフラグとして project ID の割り当てを検討してきました。
2010 年は, 塩基配列以外の多様な生物学的データ (array, mass spectrometry など) にも project ID を割り当てるべく拡張することになりました。名称も BioProject database とし, NCBI から提供される予定です。
微生物ゲノム登録への strain level taxonomy ID 割り当て
DDBJ/EMBL-Bank/GenBank では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では, 微生物のゲノム全長規模の登録に関して, strain level taxonomy ID を付加する運用を廃止する方向で2009年から 検討していましたが, 影響に配慮し, 少なくとも, 今後1年は これまで通り strain level taxonomy ID を付加する運用を続けます。
EBI において European Nucleotide Archive (ENA) 運営開始
2010 年5月から EBI において The European Nucleotide Archive (ENA) の運営が 開始されました。これにより, 欧州における塩基配列の主要な供給元である EMBL Nucleotide Sequence Database (EMBL-Bank) と Trace Archive, Sequence Read Archive の3つの事業が統合されました。

INSDC の各活動を指す名称

2009年から, INSDC を共同運営するメンバーが増えましたので, その活動の区分と方針に関する文書の見直しをしています。

  • INSDC は従来の配列データベース (DDBJ, EMBL-Bank and GenBank) と 次世代シークエンサからの配列のデータベース、Trace Archive を含めた共同事業の総称とすることで合意しました。
  • 次世代シークエンサから出力される生データを協調して収集する INSDC の活動を "Sequence Read Archive" と総称することで合意しました。これに合わせて, DRA の名称を "DDBJ Read Archive" から "DDBJ Sequence Read Archive" へ変更しました。
  • DNA sequence chromatograms (traces) を協調して収集する INSDC の事業を "Trace Archive" と総称することで合意しました。

Sequence Read Archive (SRA)

SRA 紹介論文
SRA のデータモデル詳細について共同で論文を準備します。
新しい配列決定技術への対応
下記の新しい配列決定基盤技術をサポートするために SRA schema を更新予定です。
  • Complete Genomics
  • Helicos
  • Pacific BioSciences
  • Ion Torrent

Feature と Qualifier の記載則改訂

以下に挙げる項目は,特に断り書きがない限り,2010年10月の Feature Table Definition の改訂後に適用されます。

  • conflict feature を廃止します。
    DDBJ に登録されたデータでは既に使用を禁止しています。
  • /codon, /label, /partial の3つの qualifier を廃止します。
    DDBJ に登録されたデータでは既に使用を禁止しています。
  • /gene_synonym は同じ feature 内に /gene または /locus_tag がある場合に使用可能と変更します。
  • 転移因子 (transposable element) の記載方法を変更します。
    2006年から, 転移因子を repeat_region feature と /mobile_element qualifier の組で記載してきましたが, mobile_element feature と /mobile_element_type qualifier を新設し記載するように変更します。
    この変更は 2010 年 12月に実施する予定です。
  • 新規に /whole_replicon qualifier を source feature に記載可能とします。
    ある複製単位 (replicon) の完全長の配列決定を目指したエントリを検索可能にするためのフラグとして記載する予定です。
    この変更の実施時期は未定です。
  • /artificial_location qualifier の書式を変更します。
    2009 年に導入された, /artificial_location qualifier は「値なし」でしたが, その記載理由を分類するために, "heterogenous population sequenced" または "low-quality sequence region" を規定値として記載するように変更します。
  • /experiment および /inference qualifier の書式を拡張します。
    上述の Prokaryotic Annotation Workshop からの要請を踏まえ, /experiment および /inference の書式を 主に feature 内に その記載根拠となる文献の引用のために, 拡張予定です。具体的には, 下記の2点の拡張です。
    • header "COORDINATES", "DESCRIPTION", "EXISTS" による分類
    • 証拠を示すための引用文献, PubMed ID (PMID) と Digital Object Identifier (DOI) の記載
    記載例
                /experiment="COORDINATES: N-terminus verified by Edman degradation
                [PMID: 8096212]"
                /inference="DESCRIPTION: similar to AA sequence: INSDC: AAF23014.2"
  • pseudogene annotation の改善検討
    上述の Prokaryotic Annotation Workshop からの要請の1つにpseudogene annotation 改善がありました。2009 年の /pseudo qualifier の問題と併せて検討しましたが, 主として既存データとの整合性維持が困難なことにより, 会議では合意に至りませんでした。
    この件は, 再度, 審議される予定です。

2009

第22回 国際実務者会議 2009年5月12-15日 米国ベセスダ

DDBJ, EMBL-Bank/EBI, GenBank/NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2009年は 5月12日-13日に NCBI で開催されました。

DDBJ, EMBL-Bank, GenBank が それぞれの活動について 年次報告を行った後,INSDC 運営上の実務的な問題を討論しました。

また, 今年 (2009年) から 次世代シークエンサの出力データ (Short Read) と 従来シークエンサの出力データ (Trace) を収集する下記 Archive も INSDC のメンバーに加わりました。
この共同運営に関する第1回目の会議が 2009年 5月14日-15日に NCBI で開催されました。

Short Read Archive
Trace Archive

会議の報告を以下に まとめました。

検討事項と今後の課題

次世代型配列決定によるデータの潮流と対応
上述のように, 2009年から次世代シークエンサの出力データを収集する上記の各データベースも INSDC の構成員となりました。主要な科学雑誌へ DRA/ERA/SRA accession number の記載を要望する予定です。
関連して, 今後は 454 (GS 20, GS FLX, etc.) シークエンサに由来する配列データは, 従来の DDBJ/EMBL-Bank/GenBank の EST division への登録は受け付けません。原則, DRA/ERA/SRA のみで受け付けます。
project ID のための database
INSDC は, 2005年からゲノムプロジェクトを特定するためのフラグとして project ID をフラットファイルに含めることから検討を開始しました。
2008年からは, project ID をゲノムに限定せず, transcriptome なども含めた大規模配列データにも割り当てることで合意し, そのための基盤整備を開始し, 現在も継続しています。
DDBJ と GenBank のフラットファイルでは, DBLINK 行に, EMBL-Bank では PR 行に project ID を表示しています。ゲノム・メタゲノム関連の登録に先行記載しています。
TSA 登録と そのプライマリーエントリにおいても project ID 記載を義務化します。
微生物ゲノム登録への strain level taxonomy ID 割り当て廃止の検討
DDBJ/EMBL-Bank/GenBank では, 生物名を共同で構築している taxonomy database で管理しています。taxonomy database では, 微生物のゲノム全長規模の登録に関して, strain level taxonomy ID を付加する, という運用を長期間にわたり続けてきました。この運用は, ゲノムプロジェクトを把握を容易にすることが主な目的でした。
しかしながら, 今後は project id により把握が可能であると考え, taxonomy database では, この運用を廃止する方向で検討しています。ただし, 既に多数の機関でこのような taxonomy ID が引用されていることもあり, その影響に配慮しながら, 検討を進めています。
draft 配列データにおける frame が合わないタンパク質コード配列候補の記載
大規模な draft 配列データに由来するデータが増加したことにより, frame が合わない状態であっても location に join operator を駆使して操作上のアミノ酸翻訳エラー回避を行うことによって, CDS feature を記載することが望まれるケースがあります。
そのような CDS feature を区別して受け付けるフラグとして /artificial_location qualifier を付加した CDS feature を受け付けるための整備をしています。ただし, この対応は全ゲノム規模 (transcriptome 含) の登録に限定されます。
メタ情報を記述するための structured COMMENT 仕様の検討
GenBank は 配列データに, 生物学的サンプルのメタ情報を structured COMMENT という独自形式で記述することを開始しました。
structured COMMENT は, 登録者が記載を希望するメタ情報が, Feature Table ではサポートされていない場合でも, タグとその値の組として成形した形式で受け入れる, という自由度の高い手法です。
DDBJ/EMBL-Bank/GenBank は structured COMMENT/CC line を共通の手法として活用すべく, その書式の詳細仕様を検討していきます。

Feature と Qualifier の改訂

以下に挙げる項目は,特に断り書きがない限り,2009年10月の Feature Table Definition の改訂後に適用されます。

  • /pseudo qualifier の名称変更を検討

    "pseudo" という語は, "pseudogene" を連想させますが, INSDC における実際の /pseudo qualifier 用法は「本来の機能を果たしていない」ことを示すものでした。実際には pseudogene と推定する場合と機能しない場合の両方に使用されておりましたので, 名称と用法をあわせるために分離し, 混同を避けた方が良い, と検討しています。
    この件は, 再度, 審議される予定です。

  • /exception qualifier に規定値 "annotated by transcript or proteomic data" 追加
  • 新規に /haplogroup qualifier を source feature で使用可能にします。
  • /strain qualifier に等価な名称を列挙する場合がありましたが, 今後は禁止します。

    かつて (2009年5月以前) は, /strain qualifier に下記のような記載をしている登録を認めてきました。

          /strain="ATCC #### (= JCM ### = NBRC ###)"

    しかしながら, 今後は, 等価な strain 名の列挙が必要な場合, 下記のような /note qualifier の使用を推奨します。

          /note="strain coidentity: JCM ### = NBRC ###"
          /strain="ATCC ####"
  • 上述のように, 新規に /artificial_location qualifier を CDSmRNA feature で使用可能するため仕様を検討しています。

    この変更は, 2009年12月以降に適用する予定です。

  • /inference 書式仕様の変更

    推論根拠をより効率よく記載するために, /inference 書式仕様を, 2008年から継続検討中です。

2008

第21回 国際実務者会議 2008年5月20-22日 静岡県三島市

DDBJ, EMBL-Bank/EBI, GenBank/NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2008年は 5月20日-22日に DDBJ で開催されました。

DDBJ, EMBL-Bank, GenBank が それぞれの活動について 年次報告を行った後, INSDC 運営上の実務的な問題を討論しました。

検討事項と今後の課題

新 division, TSA (Transcriptome Shotgun Assembly)
2008年6月から INSDC では, 再構成された(assembled) mRNA 配列を格納するための新 division, TSA にデータを受け付け, 公開しています。TSA を登録するためには, その登録に先立って再構成の元となる1次転写産物 (primary transcripts) の配列データをINSDC の EST division, Trace Archive, Short Read Archive の何れかに登録しておく必要があります。TSA への登録方法などの情報は, 今後, DDBJ website で紹介していく予定です。
次世代型配列決定によるデータの潮流と対応
原則として, 次世代型配列決定による未処理の配列データ (raw reads) はShort Read Archiveへ登録されるべき対象です。MINSEQE (Minimal Information about a High Throughput Sequencing Experiment) ワークショップの結果を受けて, INSD 登録を当初意図していない次世代型配列決定の結果から, 多型の発見, 再アノテーションなどにより, TPA, あるいは, TSA として INSD への登録となることが可能かもしれません。しかし, INSD への登録が有意に増大することは, 当面, ないという見通しです。
多型関連研究における同一配列の代表登録
基本的には, INSDC は同一であっても独立に得られた配列であれば受け付けており, その点において特に変更はありませんが, 近年, 増加傾向にある多型関連研究において使用したサンプルの全てを登録するとすれば, 冗長となる場合もあります。多型関連研究においては /frequency qualifier で出現頻度とサンプル総数を記載し代表配列のみに集約して登録する方法も受け付けることをあらためて確認しました。
REFERENCE/JOURNAL 行から電子出版のフラグ「(er)」を削除
REFERENCE/JOURNAL 行において電子出版を示す符号「(er)」を廃止します。古い仕様のもとの既登録データは, 適宜, 修正予定です。

Feature と Qualifier の改訂

以下に挙げる項目は, 特に断り書きがない限り, 2008年10月の Feature Table Definition の改訂後に適用されます。

  • /mol_type qualifier の規定値変更

    source feature で由来分子種を示す /mol_type qualifier の規定値を変更します。

    • 追加: "transcribed RNA"
    • 廃止: "snoRNA", "snRNA", "scRNA", "pre-RNA" and "tmRNA"
  • /organelle qualifier で新規定値 "chromatophore" を使用可能にします。
  • /ncRNA_class の規定値変更

    ncRNA feature において種類を示すために用いる /ncRNA_class qualifier の規定値リストを変更します。

    • 追加: "6S/SsrS", "SraD RNA", "DsrA RNA", "SroC", "ribozyme"

    Controlled vocabulary for ncRNA classes もご参照ください

  • 新規に /satellite qualifier を repeat_region feature で使用可能にします。

    書式:"<satellite_type>[:<class>][ <identifier>]"
    satellite_type のみ必須で下記の3つの何れか
    "satellite", "microsatellite", "minisatellite"

    Example
             /satellite="satellite: S1a"
             /satellite="satellite: gamma III"
             /satellite="minisatellite"
             /satellite="microsatellite: DC130"
  • /frequency qualifier 書式の拡張変更

    従来は存在比率の小数記載のみでしたが, 「 [n] samples 中の [m] samples 観測した」などを示す目的で, 以下の書式も可能とします;
    "[m] in [n]", "[m] / [n]"

    Example
             /frequency="23/108"
             /frequency="1 in 12"
  • 宿主を示す qualifeir, /specific_host を /host と変更します。

    /host と /lab_host とも, 可能な限り, 二名法の生物学名を記載します。

    Example
             /lab_host="Gallus gallus"
             /lab_host="Gallus gallus embryo"
             /lab_host="Escherichia coli strain DH5 alpha"
             /lab_host="Homo sapiens HeLa cells"
  • /virion qualifier を廃止します

    注) /proviral qualifier は維持します

  • /cons_splice qualifier を廃止します
  • /rearranged と /germline qualifier の検証強化

    本来は, /rearranged と /germline は ともに適応的免疫反応による体細胞のゲノム再編成の有無を示します。
    しかし, 誤用が多いため, チェックを強化します。

  • 新規に /gene_synonym qualifier を /gene qualifier を記載可能な全ての feature で使用可能とします

    また, 関連して/gene qualifier 用法の軽微な修正を検討中です。

  • /inference 書式仕様の拡張

    推論根拠をより効率よく記載するために, /inference 書式仕様を検討中です。

  • 新規に /mating_type qualifier を source feature で使用可能にします。

    従来の /sex qualifier も維持します。/mating_type と /sex 用法のガイドラインを検討中です。

2007

第20回 国際実務者会議 2007年5月21-23日 英国ヒンクストン

DDBJ, EMBL-Bank/EBI, GenBank/NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2007年は英国の EBI で5月21日-23日に開催され, DDBJ からは7名のスタッフが国際実務者会議に出席しました。

DDBJ, EMBL-Bank, GenBank が それぞれの活動について年次報告を行った後, INSDC 運営上の実務的な問題を討論しました。

検討事項と今後の課題

INSDC ホームページ
2005年から INSDC ホームページを立ち上げましたが, そのコンテンツに feature 記述サンプルを提示していくことを検討します。
alternative assemblies の登録について
大量のドラフト配列が公開されているため、これをアセンブルした研究者が成果を INSDC に登録することを求めています。どのように扱うべきか方針を検討しました。既存のTPA の枠組みに組み込むべきか, など検討しましたが結論に至らず, 国際諮問委員会に意見を求めることになりました。
GSC および MIGS 関連
Genomic Standards Consortium (GSC) は, 完全長ゲノム配列とメタゲノムのデータセット標準化を目指す団体であり, 「 Minimal Information about a Genome Sequence (MIGS)」の仕様策定を進めています。三極は GSC の活動に協力していく方向で合意しました。
EST/GSS clone library ID 導入の検討開始
学術用・商用の双方のEST と GSS の clone ライブラリに個別の ID を割り当てるための枠組を検討します。
KEYWORDS 行の語彙制御
三極は以下の3つの用語を共通の keyword として使用することで合意しました。
  • EST の向きと相対位置を示す2つの用語
    "5'-end sequence (5'-EST)"
    "3'-end sequence (3'-EST)"
  • 完全長cDNA projectに属するエントリであることを示す用語
    "FLI_CDNA"

Feature と Qualifier の改訂

以下に挙げる項目は, 特に断り書きがない限り, 2007年10月のFeature Table Definition の改訂後に適用されます。

  • 新 feature ncRNA が追加されます。

    近年, "miRNA", "siRNA" などの多様な新しい RNA 転写産物が見出されています。このようなタンパク質をコードしない RNA ファミリー数は増加することが予想されるため, 新規に, 柔軟な対応が可能な ncRNA feature を追加します。
    また, これに伴い, snRNA, snoRNA, scRNA の3つのfeature は, 2007年12月までに ncRNA feature に統合されます。

  • /ncRNA_class qualifier が追加されます。

    上記の新規 feature, ncRNA では, non- protein-coding RNA の種類を示すために, 新規 qualifier, /ncRNA_class を使用します。

    書式: /ncRNA_class="<ncRNA_class_TYPE>"
    例 : /ncRNA_class="miRNA"
    <ncRNA_class_TYPE> は以下の規定値リストから選択されます。

    "antisense_RNA", "autocatalytically_spliced_intron", "telomerase_RNA", 
    "hammerhead_ribozyme", "RNase_P_RNA", "RNase_MRP_RNA", "guide_RNA", 
    "rasiRNA", "scRNA", "siRNA", "miRNA", "snoRNA", "snRNA", "SRP_RNA", 
    "vault_RNA", "Y_RNA", "other" 
  • 新 feature tmRNA が追加されます。

    tRNA と mRNA の両方の性質を持つ RNA を記載するため, 新規に tmRNA feature が使用可能になります。tmRNA に関する情報は, tmRDB に詳しいので, ご参照ください。

  • 新 qualifier /tag_peptide が追加されます。

    tmRNA のタンパク質分解タグペプチドに対応する塩基位置を示すために, tmRNA feature で新規 qualifier /tag_peptide が使用可能になります。

    書式: /tag_peptide=<base_range>
    例 : /tag_peptide=90..122

  • source feature で由来分子種を示す /mol_type qualifier の規定値に "tmRNA" を追加します。
  • /specimen_voucher qualifier の値が institution code, collection code, 標本IDを含めていた値に構造化されます。

    ただし, 従来の自由記述も保持します。

    書式:
          /specimen_voucher="[<institution_code>:[<collection_code>:]]<specimen_id>"
          /specimen_voucher qualifier の書式は以下の3通りになります。
          <specimen_id>
          <institution_code>:<specimen_id>
          <institution_code>:<collection_code>:<specimen_id>

    値に1つ以上の ":" が含まれる場合は, 「構造化されている」と扱います。Institution_code と省略可能な collection_code は, その標本の属する博物館を示すために, 管理されている用語を使用します。

    例:
             /specimen_voucher="UAM:Mamm:52179"
             /specimen_voucher="AMCC:101706"
             /specimen_voucher="USNM:field series 8798"
             /specimen_voucher="personal collection:Dan Janzen:99-SRNP-2003"
             /specimen_voucher="99-SRNP-2003"
  • 新 qualifier /culture_collection と /bio_material が追加されます。

    2つの qualifier, /culture_collection と /bio_material が source feature で使用可能になります。上記, /specimen_voucher と同様の書式です。 culture_collection; 塩基配列の得られた培養系の institution_code と ID

    書式: 
            /culture_collection="<institution_code>:[<collection_code>:]<culture_id>"
      例: 
            /culture_collection="ATCC:26370"

    bio_material; 塩基配列の得られた生物学的資料の ID

    書式: 
            /bio_material="[<institution_code>:[<collection_code&'gt;:]]<material_id>"  
    
      例: 
            /bio_material="CGC:CB3912" 
                CGC; Caenorhabditis Genetics Center
  • old_sequence feature は, 新規登録では使用不可になります。
  • DDBJ の新規登録では, repeat_unit と satellite の2 feature は使用不可になります。

    repeat_unit と satellite は repeat_reigon feature に統合する予定です。

  • 5'clip と 3'clip の2つの feature は使用不可になります。
  • misc_recomb feature で /organism qualifier が使用可能でしたが, 使用不可になります。
  • /operon qualifier が protein_bind feature でも使用可能になります。
  • /inference qualifier の [TYPE] 規定値に "alignment" を追加します。

2006

第19回 国際実務者会議 2006年5月15-17日 米国ベセスダ

DDBJ, EMBL-Bank/EBI, GenBank/NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2006年は NCBI のあるメリーランド州ベセスダで5月15日-17日に開催され, DDBJ からは国際実務者会議に5名のスタッフが出席しました。

DDBJ, EMBL-Bank, GenBank が それぞれの活動について 年次報告を行った後, INSDC 運営上の実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

利用に制限を伴う配列登録
登録者の法的な権利, 商業権などと関連する利用制限は, 配列の利用に際し制限を設けないという INSDC の基本方針に抵触するため, これを認めないことを確認しました。
登録されない配列
論文に塩基配列を利用した結果が公表されているにもかかわらず, INSDC から配列を取得できないケースがある, という問題について, 科学雑誌の論文著者, あるいは, 編集者に連絡を取り, INSDC への配列登録の重要性を再確認してもらうことで一致しました。
INSDC ホームページ
2005年にINSDC ホームページ //www.insdc.org を立ち上げましたが, そのコンテンツの拡充を図っていくことで一致しました。
INSDSeq-XML
2003年から検討を重ねていた共通の XML フォーマット, INSDSeq-XML に関しては, 2005年から形式データを試験的に交換していました。この結果を受けて, 3つのデータバンクに共通のフォーマットとして提供するべく, その DTD などの仕様の細部を検討しました。
locus_tag
2003年からゲノムプロジェクト用に feature 継承のための識別子として /locus_tag qualifier を使用可能としておりました。当時は locus_tag に自由度の高い記載を許可していました。2005年から, 将来的にもデータベース全体を通じてユニークな ID としての機能を維持していくために, 登録時に個有の prefix を割り当て, 共有する枠組を検討しました。本年度中には稼動する予定です。

Feature と Qualifier の改訂

  • アミノ酸残基の略号 "J" と "O" を新規に追加

    1) Pyl (O); Pyrrolysine
    天然にコードされている22番目のアミノ酸として, pyrrolysine が発見されました。JCBN IUBMB-IUPAC (the Joint Commission on Biochemical Nomenclature of IUBMB and IUPAC) は, このアミノ酸略号に Pyl (3文字表記), O (1文字表記) の使用を推奨していくと合意しています。
    2) Xle (J); Leucine or Isoleucine
    leucine と isoleucine を実験的に区別できない場合のために, アミノ酸略号として, Xle (3文字表記), J (1文字表記) を使用します。
    そこでアミノ酸残基を示す略号として, 下記を追加します。
    省略形 1文字表記 アミノ酸の名称
    Xle J Leucine or Isoleucine
    Pyl O Pyrrolysine
    今後, CDS feature の translation qualifier に示されるアミノ酸配列に, "J", "O" を含むことがあります。
  • repeat_region feature において /transposon と /insertion_seq の2つの qualifier が記載可能でしたが, 下記の要領で /mobile_element qualifier に統合します。

    書式:
              /mobile_element="<mobile_element_type>[:<mobile_element_name>]"
    例:
              /mobile_element="transposon:Tnp9"

    <mobile_element_type>は以下から規定値の何れか1つ

    • transposon
    • retrotransposon
    • integron
    • insertion sequence
    • non-LTR retrotransposon
    • SINE
    • MITE
    • LINE
    • other
  • source feature で由来分子種を示す /mol_type qualifier の規定値に "viral cRNA" を追加します。

    viral cRNA の定義: マイナス鎖 RNA ウイルスが子孫のゲノムを産生する際に生じるプラス鎖の鋳型

  • rRNA feature で operon qualifier が使用不可でしたが, 今後は使用可能とします。
  • /EC_number 記述のチェックを厳密化します。

    また, 正式番号が未割当なケースを明示するため, "n" (new の頭文字) を使用可能とします。

  • /PCR_primers qualifier で示される配列に修飾塩基 (i.e. "i"; inosine)を記載する場合, "<" と ">" で括る必要があります。

    例:
              /PCR_primer="fwd_name; hoge1, fwd_seq;cgkgtgtatcttact
              rev_name; hoge2, rev_seq;cg<i>gtgtatcttact"
  • location の記載規則が, 若干変更されます。

    「 (m.n) 」が使用不可になります。

2005

第18回 国際実務者会議 2005年5月16-18日 静岡県三島市

DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは, 国際塩基配列データベース共同構築の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2005年は DDBJ で 5月16日から18日に開催されました。

DDBJ, EMBL-Bank, GenBank 三極の活動の年次報告が行なわれた後, 国際塩基配列データベース運営上の実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

DDBJ/EMBL-Bank/GenBank の連携のもとにある国際塩基配列データベースは, その総称を INSDC; International Nucleotide Sequence Database Collaboration としました。
また, INSDC ホームページを立ち上げました。

2003年から検討を重ねていた, INSDSeq-XML 形式のデータ提供を試験的に開始しました。
DDBJ では EMBL, GenBank に先駆けて getentry による個別の閲覧, FTP による取得を可能にしています。

2004年から MGA 登録を受け付けていますが, その受け入れ基準と公開形式を再検討しました。

2002年から TPA 登録を受け入れてきましたが, これまでは, その根拠が生物学的な実験に拠らなければならない, としてきました。
今後は, 実験に拠らない推定でも, 登録可能とする方向で受け入れ範囲を拡大する予定です。
そのための新しい受け入れ基準を検討しています。

2003年からゲノムプロジェクト用に feature 継承のための識別子として /locus_tag qualifier を使用可能としておりました。
これまでは /locus_tag に自由度の高い記載を許してきました。
しかし将来的にも、データベース全体を通じてユニークなIDとしての機能を維持していくために登録時に割り当てる基準を検討しています。
また関連して, フラットファイルに主にゲノムプロジェクトを特定するためのフラグとして project ID 情報を含めるために, 情報基盤整備を進めています。

特に rRNA に関して, 配列の向きと全長か部分かの区別が, 必ずしも, 正しくアノテーションされていないケースがあります。
rRNA に限らず, 配列の向きなどが正しく記載されるように検証が必要, と合意しました。

Feature と Qualifier の改訂

Feature, 特に CDS の記載に実験的な根拠があるのか, 相同性から推定なのか, などを示すことが利用者から求められております。
そのような情報の受け皿として, これまで使用してきた evidence qualifier を2つの新規 qualifier, /experiment と /inference に分割し, 詳細な表現を記載可能にします。

a) 生物学的な実験に基づくfeature の論拠
  • 旧 /evidence=experimental 相当
  • /experiment="free text" (1000文字未満の自由記述)
b) 生物学的な実験ではない推定に基づく feature の論拠
  • 旧 /evidence=not_experimental 相当
  • /inference="[TYPE]( same species):[evidence basis]"
  • (ただし、[TYPE] は別途定める規定値)
注)/evidence=experimental, /evidence=not_experimental は, それぞれ下記に置き換えます。
  • /experiment="experimental evidence, no additional details recorded"
  • /inference="non-experimental evidence, no additional details recorded"

近年, 環境サンプル, BARCODE project など生物多様性に登録が増加しています。
このような研究においては, 配列の単離採集元の記載が重要であるため, source feature に下記の qualifier を新設します。

  • /collection_date="DD MMM YYYY", "MMM YYYY" or "YYYY"
    • DD ; 日付を示す2桁の数字
    • MMM ; 月を示す3文字の略号
    • YYYY; 西暦年号を示す4桁の数字
  • /lat_lon="###.## [N or S], ###.## [E or W]"
  • /collected_by="[標本を採取した人物名]"
  • /identified_by="[標本を同定した人物名]"
  • /PCR_primers="fwd_name:[name],fwd_seq:[sequence],rev_name:[name], rev_seq:[sequence]"

intron, misc_RNA の2つの feature では, /pseudo qualifier が使用不可でしたが, 今後は, 使用可能とします。

/rpt_unit qualifier には location による記載, 配列自体の記載の双方が可能でしたが, 配列は /rpt_unit_seq, location は /rpt_unit_range と分割します。

CDS feature に /ribosomal_slippage, /trans_splicing の新規 qualifier を追加します。

/organelle qualifier の規定値に "hydrogenosome" を追加します。

その他の変更

location の記載規則が, 若干, 変更されます。

"join" と "order" の併用は禁止されます。

n..n は使用不可になります。
i.e. "100..100" は不可

m^n は隣接した塩基のみに制限されます。
n=m+1
ただし circular の場合, m=[最後の塩基番号] と n=1 の組を許可
i.e. "100^200" は不可

領域を表現する場合の (m.n) は使用不可になります。 i.e. "(5.10)..100" は不可

2004

第17回 国際実務者会議 2004年5月17-19日 英国ヒンクストン

CIB/DDBJ, EBI/EMBL, NCBI/GenBank は, 国際塩基配列データベース共同構築の運営・推進をはかるために, 国際実務者会議と国際諮問委員会を年1回開催しています。
2004年は EBI のあるヒンクストンで第17回国際実務者会議 (5月17日-19日) と,第15回国際諮問委員会 (5月20日から21日) が開催されました。DDBJ からは国際実務者会議に5名の, 国際諮問委員会に4名のスタッフが出席しました。

国際実務者会議では, DDBJ, EMBL, GenBank 三極の活動の年次報告が行なわれた後, 国際塩基配列データベース運用上の実務的な問題を検討しました。会議で決定した主な事項は次の通りです。

動向

一昨年の会議を受けて,1エントリを350kb 以下にするという, 塩基配列長の制限を撤廃することを検討して来ましたが,特に大きな問題は予想されないと結論し,これを進めることで合意しました。
この制限の廃止に伴い, 過去に長さを理由に分割したエントリは, 適宜, 結合する方針です。

環境サンプル由来の塩基配列の登録が, 近年, 急増しています。これに対応すべく, ENV (環境サンプル) division を新設し, これまで主として BCT (バクテリア) division に含まれていた環境サンプル由来エントリを明示的に区別します。

一昨年より TPA の登録を受け付けていますが, 引用配列とTPA 登録配列の違いをどの程度許容するかという点を明確に出来ていませんでした。
この違いが整列される範囲の 10% 未満に収まることを目安とする方向で合意しました。

昨年の決定を受けて, DDBJ, EMBL-Bank, GenBank において共通の XML フォーマットを提供する準備を進めておりましたが, 共通化した DTD と XML フォーマットのテスト運用を内部的に進める予定です。

gap を含む配列に関して, これまで恣意的な個数の連続した 'n' を挿入した上で, 配列を受け付けていました。
今後は gap の長さが不明の場合は 100個の連続した 'n' を,長さの推定が為されている場合はその数分の連続した n を,対応する location に挿入することを規則とします。

Feature/Qualifier に関する決定

source feature の qualifier の一部, /variety, /cultivar などには value が不適切なエントリが多数存在していますので, 修正していく予定です。

環境サンプル由来登録の増加に関連し, 採集地情報を記載する /country qualifier の記載の在り方について再検討しています。

/bound_moiety を使用可能な feature は, これまで protein_bind のみでしたが, 今後は, promoter, enhancer, oriT, misc_bind にも使用可能とする予定です。

一昨年, 特定ゲノムプロジェクト用に feature 継承用の ID 情報を記述するための /locus_tag qualifier を追加しましたが, 履歴管理のために /old_locus_tag qualifier を更に追加する予定です。

配列比較に基づいて記載される一群の feature (variation, misc_difference, conflict, unsure, old_sequence) について比較対象の配列を記載するための /compare qualifier (/compare=[accession].[version] )を追加する予定です。

その他

Feature,特に CDS の根拠が実験的であるか, 相同性に基づく推定か, 単なる読み枠の予測によるか, などを示すことが利用者から求められております。これに関連して, /evidence qualifier の規定値の追加, 再分類と再定義の検討を進めています。

2003

第16回 国際実務者会議 2003年5月19-21日 米国ベセスダ

CIB/DDBJ, EBI/EMBL, NCBI/GenBank 国際 DNA データバンクは, DDBJ/EMBL/GenBank 国際塩基配列データベース共同構築の運営・推進をはかるために, 国際諮問委員会と国際実務者会議を年1回開催しています。

2003年は NCBI のあるメリーランド州ベセスダで第16回国際実務者会議 (5月19日-21日) と, 第14回国際諮問委員会 (5月22日-23日) が開催されました。DDBJ からは国際実務者会議に5名の, 国際諮問委員会に3名のスタッフが出席しました。

国際実務者会議では, DDBJ, EMBL, GenBank 三極がその活動の年次報告を行なった後, 国際塩基配列データベース運用上の実務的な問題を検討しました。会議で決定した主な事項は次の通りです。

動向

現在, 塩基配列の長さは1エントリを 350kb 以下にする規則ですが, 昨年の決議を受けた検討の結果, 来年を目処にこの制限を撤廃する方針で合意しました。
この件に関しましては, 後に DDBJ, EMBL, GenBank 共同で正式な広報を行ないます。

DDBJ, EMBL, GenBank はこれまで, それぞれ独自の XML フォーマットによるデータセットの提供をして参りましたが, これを共通化する方向で DTD と XML フォーマットを検討することを決定しました。
現在のプレーンテキストのフラットファイルに代わり得るものとして, 平均的な利用者が容易に利用可能なように, 比較的単純な構造を目指します。

Whole Genome Shotgun (WGS) の登録受付基準と公開方針に関する意見交換と確認, 更新と維持に関する検討がなされました。

Third Party Annotation (TPA) の登録受付基準と公開方針に関する意見交換と確認がなされました。

Feature/Qualifier に関する決定

詳細な塩基配列の決定を行なっていない, もしくは, 決定が困難な状態にある領域を示すために, gap feature と /estimated_length qualifier が新設されます。

source feature に記述可能な qualifier として /ecotype が新設されます。
定着性の生物 (主として植物) の種内において遺伝学的に区別される集団に, その生息場所に基づいて割り当てた名称を記述するために用います。

プラスミドが接合, あるいは, 動態化する過程における転移開始点の情報を記述するために oriT feature を追加します。

オペロンの情報を記述するために operon feature と /operon qualifier を追加します。

/allele qualifier を /gene qualifier が記述可能なすべての feature で記述可能に拡張します。

その他

近年のオンラインジャーナルの増加に対応すべく, オンラインジャーナルを示すためのフォーマットを統一し, electronic resource を表す [er] というタグを付加することを決定しました。

2002

第15回 国際実務者会議 2002年5月20-22日 静岡県三島市

この会議は5月20日から22日に開催され, DDBJ, EMBL, GenBank 三極の活動の年次報告が行なわれた後,国際塩基配列データベース運用上の実務的な問題を検討しました。会議で決定した主な事項は次の通りです。

動向

塩基配列の公開について, 一度公開したアクセッション番号は, 未来永劫取り消さないという原則を再確認しました。
これまで DDBJ では, 公開取り消しの依頼を受けた場合には, DDBJ サイト内のあらゆる検索系から閲覧ができないようにしていましたが, これを受けて, 定期リリースと通常検索サービスからは削除されますが, getentry を利用してアクセッション番号を用いた検索をした場合には, 閲覧が可能な状態になります。
ただし DDBJ/EMBL-Bank/GenBank が作業ミスにより誤って公開した場合は, その限りではありません。
詳細は 登録データの取り扱いについて をご覧下さい。

現在, 塩基配列の長さは1エントリを350kb 以下にする規則ですが, 近年の登録内容の変化に対応するため, 2年後を目処にこの制限を撤廃する方針で合意しました。
ただし, この猶予期間に関連ソフト会社などと意見交換行ない, これを参考の上, 制限撤廃か否かを最終的に決定します。

Whole Genome Shotgun (WGS) の登録受付基準と公開方針に関する意見交換と確認, その公開フラットファイルのフォーマットについての検討がなされました。
また, 通常よりデータサイズが大きいため, 当面, 定期リリースなどには含めない方針です。

Third Party Annotation (TPA) の登録受付基準と公開方針に関する意見交換と確認, その公開フラットファイルのフォーマットについての検討がなされました。

Feature/Qualifier に関する決定

これまで実質的には DDBJ のみが source feature の /sequenced_mol qualifier を用いて塩基配列の分子タイプを分類していましたが, EMBL/GenBankも, これに倣う方向で分子タイプを分類することになりました。
また, より適切に分類するために /mol_type qualifier に移行していく予定です。

source feature の /variety qualifier は本来, 変種を示すために用い, ラテン名で記述しますが, value が不適切なエントリが多数存在していますので, 修正していく予定です。

source feature にウイルスのゲノム構造を示すための /segment qualifier を追加します。

これまで misc_recomb feature に /organism qualifier を必須にしてきましたが, 今後は, これを必須とはしないことになりました。

特定ゲノムプロジェクト用に CDS feature 継承用の ID 情報を記述するために /locus_tag qualifier を追加します。

その他

Feature, 特に CDS の根拠が実験的であるか, 配列解析によるか, を示すことが利用者から求められており, これに関して, /evidence qualifier の規定値の追加, 再分類と再定義の検討を進めていく予定です。

近年, microRNAs と総称される RNA 転写産物に関する報告が増加しており, 生物学的に重要と思われますので, 新しい Feature key となり得る対象をリストアップし, 定義を検討することになりました。