第25回 INSDC meeting report 2012年6月11-13日 米国ベセスダ
2012
第25回 INSDC meeting report 2012年6月11-13日 米国ベセスダ
DDBJ, EBI,
NCBI で構成される
International Nucleotide Sequence Database Collaboration (INSDC)
は、その共同事業の運営・推進を図るために、年1回、会議を開催しています。
2012年は 6月11日-13日に NCBI
で開催され、DDBJ、EMBL-Bank、
GenBank、
Sequence Read Archive (SRA)、Trace Archive
を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。
検討事項と今後の課題
- BioSample database
- BioSample database では実験的解析に用いられた生物学的な試料に関する記述を収集します。 BioSample database の目的は、生物学的な試料に関する情報を一元的に蓄積して提供することです。 このサンプル情報には、塩基配列や発現解析といった他のデータベースに格納されているデータに関する研究情報も含まれます。
- EBI と NCBI では既に NCBI BioSample と EBI BioSamples を それぞれ独立に収集しています。DDBJ も含めて INSDC として BioSample data を収集し共有すべく検討しました。
- BioSample accession numberの書式は SAM[D|E|N]+8桁の数字 D=DDBJ;
E=EBI; N=NCBI を示します。
例: SAMD01234567 - 微生物ゲノム登録への strain level taxonomy ID 割り当て
- DDBJ/EMBL-Bank/GenBank では,生物名を共同で構築している taxonomy database で管理しています。
- taxonomy database では、微生物のゲノム全長規模の登録に関して、strain level taxonomy ID を割り当てる運用を廃止する方向で2009年から 検討しています。
- しかしながら、strain level taxonomy ID を割り当てる運用は、少なくとも 2013 年までは廃止せずに続けます。 BioSample database が軌道に乗り、サンプル情報を相互に交換して、現行の strain level taxonomy ID に代えることが可能になるまで、2013 年以降も続けるかもしれません。
- 増加するゲノム配列の登録
- 登録者からも利用者からも、サンプル・研究目的に配慮したデータ登録への対応が求められており、多様化しています。
- 特にゲノム配列データに関して、bulk なケースでは reference genome が1つ存在するように保つことを条件に SRA への登録の際 analysis object に BAM, VCF, GFF などを付加するのみで WGS データ (draft assemble) の登録も なしで済ませて良い、という方向で膨大なゲノムデータ登録への対応に合意しました。
- 反面、reference genome に相当し得る finished level の登録では feature annotation がない状態では、”complete genome” という KEYWORDS を付けないようにすること、 feature annotation の精度をある程度以上に保つべく、 ソフトウェアツールの提供や guideline を求める community の要望に応えるようにドキュメント整備に努めるなどの対応を検討しました。
- また、NCBI の活動として、Assembly (Genome Collection) が紹介されました。Genome Collection database は AGP file で assembled genome の構造、または、完全に配列決定された chromosome の情報を収集しています。 この活動に INSDC として協力していくことで合意しました
INSDC への登録に関する改訂
- MGA の新規受付を終了
- 2004年から MGA data の登録を受け付けてきましたが、新しい配列決定技術の普及に伴い、このデータモデルは登録の需要がなくなったようです。 そこで、MGA data の新規登録受付を終えることにしました。 新規の登録には DDBJ Sequence Read Archive (DRA)、 Genomic Expression Archive (GEA) をご利用ください。
SRA XML schema の改訂
SRA XML schema version 1.4 が合意され、2012年7月から既に登録に適用されています。
SRA XML schema version 1.5 を検討中で、近い将来、適用予定です。変更点は冗長な記載項目の統廃合になります。
SRA XML schema version 2.0 について、SRA metadata を BioProject と BioSample のデータと連携していくために継続検討しています。
Feature と Qualifier の記載則改訂
以下に挙げる項目は,特に断り書きがない限り,2012年10月の Feature Table Definition の改訂後に適用されます。
- /anticodon qualifier の書式を拡張し、その配列を含むように変更します。
- /linkage_evidence qualifier で “pcr” が記載可能になります。
- /frequency qualifier は source feature では使用不可になります。
- 新規に /altitude qualifier が source feature で使用可能になります。
- 規定値を持つ qualifier について、その規定値の改訂は INSDC site 上に提示して行くことにより、 Feature Table Definition の改訂よりも頻繁に行うように運用を改善します。
- /mobile_element_type qualifier の規定値が体系的・網羅的でないため、改善を検討中です。 2013 年中に改訂予定です。
- 機能的ではない遺伝子を示すために、/pseudo
qualifier を再び使用可能にします。
ICM2011 で INSDC は 新 qualifier /pseudogene を採択し、 旧 /pseudoを使用不可にしました。 /pseudogene qualifier は その feature が pseudogene であることを規定値で示されるタイプとともに示すために用います。しかしながら、pseudogene ではない、非機能的遺伝子を示す需要があるため、/pseudo qualifier と /pseudogene qualifier を並行使用することにしました。