DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、国際実務者会議を年1回開催しています。
2013年は 5月21日-23日に EBI で開催され、DDBJ、EMBL-Bank、GenBank、Sequence Read Archive (SRA)、Trace Archive を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。
BioSample database では実験的解析に用いられた生物学的な試料に関する記述を収集します。BioSample database の目的は、生物学的な試料に関する情報を一元的に蓄積して提供することです。このサンプル情報には、塩基配列や発現解析といった他のデータベースに格納されているデータに関する研究情報も含まれます。
2012 年に引き続き、INSDC として BioSample data を収集し共有するための運用上の課題を検討しました。
DDBJ でも 2013 年中には BioSample 登録受付を開始予定です。
INSDC では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では、微生物のゲノム全長規模の登録に関して、strain level taxonomy ID を割り当てる運用を廃止する方向で2009 年から 検討しています。
2014 年からは、BioSample data の登録で、現行の微生物のゲノム全長規模の登録への strain level taxonomy ID に代えることで、廃止する予定です。
また、この件についての詳細を論文として発表予定です。
これまで、sequencing gap を含まない overlaping reads を配列で受け付け WGS entry として登録、sequencing gap を挟んだ scaffold を AGP format で受け付け、CON entry として登録する規則でした。
この方針は、近年、一部の assembly tool の仕様とは合わなくなっており、今後は sequencing gap を含む scaffold なども gap を表現する n を含んだ配列としての登録を可能にするために、規則を緩和します。
後にゲノム配列登録のためのガイドラインを準備します。
近年、paired-end sequencing は genome 解析だけでなく transcriptome 解析においても一般的になり、RNAseq assembly のためのソフトウェアにおいても scaffold 構築を行うようになっています。そこで、transcriptome の scaffolded assemblies も assembly_gap feature と適切な /linkage_evidence qualifier、"paired-ends" など、を記載した上で、 TSA エントリとして登録を受け付けます。
TPA データ登録のガイドラインを登録の実状に合わせて見直しました。主な修正点は以下になります。
SRA XML schema version 1.5 を適用しました。変更点は冗長な記載項目の統廃合になります。
SRA XML schema version 2.0 について、SRA metadata を BioProject と BioSample のデータと連携していくために継続検討しています。
SRA のアクセッション番号について、6桁の数字が全て使われた後は、その長さを可変とすることを決定しました。つまり、SRR999999 の次を SRR1000000 とします。
以下に挙げる項目は,特に断り書きがない限り,2013年10月の Feature Table Definition の改訂後に適用されます。
この変更は 2013 年 12 月から適用されます。
仕様の詳細と適用時期は未定です。