第24回 INSDC meeting report 2011年5月23-27日 大阪府大阪市
2011
第24回 INSDC meeting report 2011年5月23-27日 大阪府大阪市
DDBJ, EBI,
NCBI で構成される
International Nucleotide Sequence Database Collaboration (INSDC) は、
その共同事業の運営・推進を図るために、
年1回、会議を開催しています。
2011年は 5月23日-27日に 大阪で開催され,
DDBJ,
EMBL-Bank,
GenBank,
Sequence Read Archive (SRA), Trace Archive
を運営する上での実務的な問題を討論しました。
慣例通りであれば, 三島で開催するところでしたが,
当時は震災に関連した電力不足の懸念などもあり, EBI と NCBI
の理解と協力を得て大阪で開催となりました。
会議の報告を以下に まとめました。
検討事項と今後の課題
- NCBI における SRA とTrace Archive の事業継続について
- NCBI から予算制約のため、SRA と Trace Archive の受付を中止するという発表がありましたが、NIHは2011年10月1日までは、現在の形でSRAを運用可能な暫定的な資金を確保しています。さらに、NCBI スタッフは 2011年10月1日以降も、広く使用されている次世代シーケンシングデータの archive を継続する手法を開発するために、他のNIHの研究所とNIHからの資金を受けている研究者と協力しています。
加えて, NCBI は見通しの立っている範囲の将来においては、SRA とTrace Archive の既存データへのアクセスを提供し続ける予定であり、特に大規模な研究に関連する他の次世代シーケンシングデータの扱いに関してもNIHの研究所とともに検討を続けています。 - BioProject database
- INSDC は, 2005年から,
拡張と変更を経て,
ゲノム、メタゲノムだけではなく、多様な生物学的データを特定するためのフラグとして
project ID の割り当てを検討してきました。2011 年中にはINSDC における
BioProject database の協同構築が開始される予定です。DDBJ BioProject
Databaseのサイトもご参照ください。
BioProject は単一の組織 (organization) あるいは、共同体 (consortium) に由来する単一の取り組み (initiative) に関連した生物学的データを集めたものです。BioProject レコードを参照することで、その project から生じた多様なデータへのリンクを見つけることが可能です。
BioProject accession numberの書式は PRJ[D|E|N][A-Z]+integer で D=DDBJ; E=EBI; N=NCBI を示します。
例: PRJNA38683
INSDC への登録に関する改訂
- INSDC では共通な entry status の定義として下表を用いることを合意しました。
-
* specific deadlines are available from INSDC partner. Status name Causes Implications Public Data are submitted with no request for confidential hold prior to publication or have reached an owner-agreed public release date. Data are fully available Confidential Data owner requires and indicates to INSDC staff that confidentiality is required until a release date or publication in the literature, whichever comes earlier. Data are not available publicly through any means.
A data release date is recorded for the data, which are subsequently and automatically released as Public on reaching this date or being cited in a publication prior to this date. In the event that a release date must be extended, data owners are required to contact the INSDC partner responsible for the submission with sufficient notice*.Suppressed - (1) Data are found by the owner to be incorrectly annotated or contaminated with no opportunity on the part of the owner to be updated.
- (2) Data owners realise after sequences have been released that they failed to request a confidential status, either at the time of submission, or within the period between completion of submission processing and the date on which the submission is normally made available to the public (this time period can vary among the INSDC members).
Data are removed where possible from INSDC partner direct search tools (such as text and sequence similarity search) but remain available by accession number. Replaced Data owners generate new data under new accession identifiers that directly replace existing data; this expected to be rare since replacement data normally use the existing accession identifiers for the records that they replace. Data are removed where possible from INSDC partner direct search tools (such as text and sequence similarity search) but remain available by accession number. Where possible, look-up by original accession identifiers leads to a re-direct to new records available under the new accession identifiers. Killed - (1)The submitter has requested a Confidential status or an extension to an existing release date, but the INSDC partner, or their submissions brokering collaborator, has failed to apply the appropriate release date correctly.
- (2) Data are found to have been submitted to the databases without the permission of the rightful owner; this is expected to be extremely rare and requires formal institutional contact with the submitting institution.
Data are not directly available publicly from INSDC partners through any means. However, because the data will have been distributed previously as Public, the INSDC partners cannot exercise any control on the resultant use of the data by third parties. - CON division への登録に関して, AGP format version 2.0が2011年12月から適用されます。
SRA XML schema の改訂
- SRA XML schema version 1.3 が 2011年6月から既にSRA データ登録に適用されています。
- SRA XML schema version 2.0 を SRA データ登録用に検討しています。
Feature と Qualifier の記載則改訂
-
centromere と telomere の2つの feature key が 2011 年10月から新規に使用可能になります。
-
assembly_gap という feature key が 2011年12月から新規に使用可能になります。
assembly_gap feature は AGP format の改訂と密接に関連します。AGP format のバージョンを上げる際に、CON の sequencing gap に相当する対象には gap feature ではなく、assembly_gap feature が記載されます。 -
2012年4月から /anticodon qualifier の書式を拡張します。
-
pseudogene annotation の改善について
ICM2010 の報告にもありますが、Prokaryotic Annotation Workshop から pseudogene annotation の改善に関する要請がありました。さらに2009年から検討していた /pseudo qualifier の用法に関する問題点を改善するために検討しました。新規登録においては/pseudo qualifier の使用を禁止します。これに代わり新規に /pseudogene qualifier を導入し、定義を見直して pseudogene に限定して記載することになりました。この変更は 2012 年 4月に適用する予定です。 -
/whole_replicon qualifier 導入を中止
ICM2010において、複製単位 (replicon) の全体に相当する配列データに /whole_replicon qualifierをフラグとして記載することを決めました。しかしながら、全ゲノムを代表するデータを蓄積する目的には BioProject record の方がより役に立つであろうと再考しました。 INSDC では /whole_replicon qualifier の追加を中止し、代わりに BioProject record に代表データへ ‘genomic molecule’ というフラグを新規項目として付加します。INSDC における ‘genomic molecule’ の意味を以下のように定義することで合意しました。:
The submitter of a genomic assembly defines his/her INSDC sequence record as a 'genomic molecule', meaning a chromosome, plasmid or linkage group, when it is the submitter's intention to use that sequence record permanently as that biological molecule and the sequence is the current reasonable model of the biological molecule. Whether the record shows a complete representation of the molecule or not is not necessarily a factor under consideration for this submitter-declared 'genomic molecule'.