第26回 INSDC meeting report 2013年5月21-23日 英国ヒンクストン
2013
第26回 INSDC meeting report 2013年5月21-23日 英国ヒンクストン
DDBJ, EBI,
NCBI で構成される International
Nucleotide Sequence Database Collaboration
(INSDC)
は、その共同事業の運営・推進を図るために、年1回、会議を開催しています。
2013年は 5月21日-23日に EBI
で開催され、DDBJ、EMBL-Bank、
GenBank、
Sequence Read Archive (SRA)、Trace Archive
を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。
検討事項と今後の課題
- BioSample database
- BioSample database では実験的解析に用いられた生物学的な試料に関する記述を収集します。
BioSample database の目的は、生物学的な試料に関する情報を一元的に蓄積して提供することです。
このサンプル情報には、塩基配列や発現解析といった他のデータベースに格納されているデータに関する研究情報も含まれます。
2012年に引き続き、INSDC として BioSample data を収集し共有するための運用上の課題を検討しました。
DDBJ でも 2014 年中には BioSample 登録受付を開始予定です。 - 微生物ゲノム登録への strain level taxonomy ID 割り当て
- INSDC では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では、微生物のゲノム全長規模の登録に関して、strain level taxonomy ID を割り当てる運用を廃止する方向で2009年から 検討しています。
2014年からは、BioSample data の登録で、現行の微生物のゲノム全長規模の登録への strain level taxonomy ID に代えることで、廃止する予定です。
また、この件についての詳細を論文として発表しました。
INSDC への登録に関する改訂
- WGS と scaffold の登録規則を緩和
- これまで、sequencing gap を含まない overlaping reads を配列で受け付け
WGS entry として登録、sequencing gap を挟んだ scaffold
を AGP format
で受け付け、CON entry として登録する規則でした。
この方針は、近年、一部の assembly tool の仕様とは合わなくなっており、 今後は sequencing gap を含む scaffold なども gap を表現する n を含んだ配列としての登録を可能にするために、規則を緩和します。
INSDC standards for genome assembly submissionを ご参照ください。 - TSA データの受付基準を緩和
- 近年、paired-end sequencing は genome 解析だけでなく transcriptome 解析においても一般的になり、RNAseq assembly のためのソフトウェアにおいても scaffold 構築を行うようになっています。 そこで、transcriptome の scaffolded assemblies も assembly_gap feature と適切な /linkage_evidence qualifier、”paired-ends” など、を記載した上で、 TSA エントリとして登録を受け付けます。
- TPA データ登録ガイドラインの更新
- TPA データ登録のガイドラインを登録の実状に合わせて見直しました。
TPA Submission Guidelines を ご参照ください。
主な修正点は以下になります。- TPA を Third Party Annotation の略としていましたが、今後は Third Party Data の略とします。
- TPA に annotation だけではなく、assemble も受け付けることを明記します。
- TPA に新規に TPA:specialist_db という subcategory を設け、専門性の高いデータベースなどからの登録を受け付けます。
SRA XML schema の改訂
SRA XML schema version 1.5 を適用しました。変更点は冗長な記載項目の統廃合になります。
SRA XML schema version 2.0 について、SRA metadata を BioProject と BioSample のデータと連携していくために継続検討しています。
SRA のアクセッション番号について、6桁の数字が全て使われた後は、その長さを可変とすることを決定しました。 つまり、SRR999999 の次を SRR1000000 とします。
Feature と Qualifier の記載則改訂
以下に挙げる項目は,特に断り書きがない限り,2013年10月の Feature Table Definition の改訂後に適用されます。
- 5’UTR と 3’UTR の feature を RNA virus genome に使用して良いことをあらためて確認しました。定義を修正します。
- /collection_date qualifier
の書式を変更します。
この変更は 2013 年 12 月から適用されます。- 書式を ISO 標準書式
に変更し、時間帯とともに時刻を表記可能にします。
i.e. “2007-04-05T14:30Z” - ”/” で区切り、期間の表記を可能にします。
i.e. “2007-03-01T13:00Z/2008-05-11T15:30Z”
- 書式を ISO 標準書式
に変更し、時間帯とともに時刻を表記可能にします。
- /ncRNA_class qualifier で “lncRNA” が記載可能になります。
- /estimated_length qualifier の仕様を変更し、長さ不明の gap においても配列長を 100 bp に固定しなくても良いようにします。
- type strain, type specimen などを指定するために、新規に
/type_material qualifier を使用することを検討しています。
仕様の詳細と適用時期は未定です。