DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために, 国際実務者会議を年1回開催しています。
2010年は 5月19日-21日に EBI で開催され, 国際塩基配列データベース (DDBJ, EMBL-Bank, GenBank, Sequence Read Archive, Trace Archive) を運営する上での実務的な問題を討論しました。
当時, アイスランドの火山活動の影響で旅程が変更され, 予定より短い会議となりましたが, 多くの進展がありました。
会議の報告を以下に まとめました。
ゲノム規模データのサンプリング情報
Genomic Standards Consortium (GSC) からの要請により, Minimum Information about a (Meta)Genome Sequence (MIGS/MIMS) または Minimum Information about an Environmental Sequence (MIENS) に準拠したゲノム規模データのサンプリング情報を配列データに含めることを 2005 年から検討してきました。
2009 年から, DDBJ/EMBL-Bank/GenBank ではこの種の書式に準拠した内容を structured COMMENT を応用して記載してきましたが, 配列データの外部に参照引用可能なデータベースを設置する方が更新・維持管理が容易であり, コンテンツの冗長性も下がりますので, 参照データベースによる提供も検討しています。
参考: Genomic Standards Consortium on Wikipedia
INSDC 登録に必要最小限の情報
INSDC は, Minimum Information for Biological and Biomedical Investigations (MIBBI) に "minimal submission requirements" を登録する予定です。MIBBI は 多様なコミュニティから報告されるガイドラインを統合して一式の規格とすることを目指すプロジェクトです。
Prokaryotic Annotation Workshop
NCBI が主催した Prokaryotic Annotation Workshop に参加した研究者, 主に J. Craig Venter Institute (JCVI) からの要請を受けて, feature/qualifier の記載規則の拡張を検討しました。主として, feature に典拠となる文献などを どのように記載するか, タンパク質コード配列の産物名 (CDS feature における /product qualifier の値) の記載適正化 などを検討しました。
INSDC は, 2005 年から, 拡張と変更を経て, 大規模配列データを特定するためのフラグとして project ID の割り当てを検討してきました。
2010 年は, 塩基配列以外の多様な生物学的データ (array, mass spectrometry など) にも project ID を割り当てるべく拡張することになりました。名称も BioProject database とし, NCBI から提供される予定です。
DDBJ/EMBL-Bank/GenBank では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では, 微生物のゲノム全長規模の登録に関して, strain level taxonomy ID を付加する運用を廃止する方向で2009 年から 検討していましたが, 影響に配慮し, 少なくとも, 今後1年は これまで通り strain level taxonomy ID を付加する運用を続けます。
2010 年5月から EBI において The European Nucleotide Archive (ENA) の運営が 開始されました。これにより, 欧州における塩基配列の主要な供給元である EMBL Nucleotide Sequence Database (EMBL-Bank) と Trace Archive, Sequence Read Archive の3つの事業が統合されました。
2009 年から, INSDC を共同運営するメンバーが増えましたので, その活動の区分と方針に関する文書の見直しをしています。
SRA 紹介論文
SRA のデータモデル詳細について共同で論文を準備します。
新しい配列決定技術への対応
下記の新しい配列決定基盤技術をサポートするために SRA schema を更新予定です。
以下に挙げる項目は,特に断り書きがない限り,2010年10月の Feature Table Definition の改訂後に適用されます。
DDBJ に登録されたデータでは既に使用を禁止しています。
DDBJ に登録されたデータでは既に使用を禁止しています。
2006 年から, 転移因子を repeat_region feature と /mobile_element qualifier の組で記載してきましたが, mobile_element feature と /mobile_element_type qualifier を新設し記載するように変更します。
この変更は 2010 年 12月に実施する予定です。
ある複製単位 (replicon) の完全長の配列決定を目指したエントリを検索可能にするためのフラグとして記載する予定です。
この変更の実施時期は未定です。
2009 年に導入された, /artificial_location qualifier は「値なし」でしたが, その記載理由を分類するために, "heterogenous population sequenced" または "low-quality sequence region" を規定値として記載するように変更します。
上述の Prokaryotic Annotation Workshop からの要請を踏まえ, /experiment および /inference の書式を 主に feature 内に その記載根拠となる文献の引用のために, 拡張予定です。具体的には, 下記の2点の拡張です。
記載例
/experiment="COORDINATES: N-terminus verified by Edman degradation
[PMID: 8096212]"
/inference="DESCRIPTION: similar to AA sequence: INSDC: AAF23014.2"
上述の Prokaryotic Annotation Workshop からの要請の1つにpseudogene annotation 改善がありました。2009 年の /pseudo qualifier の問題と併せて検討しましたが, 主として既存データとの整合性維持が困難なことにより, 会議では合意に至りませんでした。
この件は, 再度, 審議される予定です。