• DDBJ Search で新規公開・再公開された DRA が検索できません
  • DRA 検証処理における不具合
  • (5/3-5/6) ゴールデンウィーク中の対応について
  • getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

第23回 INSDC meeting report 2010年5月19-21日 英国ヒンクストン

  • ホーム
  • 第23回 INSDC meeting report 2010年5月19-21日 英国ヒンクストン

2010

第23回 INSDC meeting report 2010年5月19-21日 英国ヒンクストン

DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は, 国際塩基配列データベース共同構築事業の運営・推進を図るために、 年1回、会議を開催しています。
2010年は 5月19日-21日に EBI で開催され, 国際塩基配列データベース (DDBJ, EMBL-Bank, GenBank, Sequence Read Archive, Trace Archive) を運営する上での実務的な問題を討論しました。
当時, アイスランドの火山活動の影響で旅程が変更され, 予定より短い会議となりましたが, 多くの進展がありました。
会議の報告を以下に まとめました。

検討事項と今後の課題

配列データの登録とサンプリング情報記載の標準化に関する動向
ゲノム規模データのサンプリング情報
Genomic Standards Consortium (GSC) からの要請により, Minimum Information about a (Meta)Genome Sequence (MIGS/MIMS) または Minimum Information about an Environmental Sequence (MIENS) に準拠したゲノム規模データのサンプリング情報を配列データに含めることを 2005年から検討してきました。
2009年から, DDBJ/EMBL-Bank/GenBank ではこの種の書式に準拠した内容を structured COMMENT を応用して記載してきましたが, 配列データの外部に参照引用可能なデータベースを設置する方が更新・維持管理が容易であり, コンテンツの冗長性も下がりますので, 参照データベースによる提供も検討しています。
参考: Genomic Standards Consortium on Wikipedia
INSDC 登録に必要最小限の情報
INSDC は, Minimum Information for Biological and Biomedical Investigations (MIBBI) に “minimal submission requirements” を登録する予定です。MIBBI は 多様なコミュニティから報告されるガイドラインを統合して一式の規格とすることを目指すプロジェクトです。
Prokaryotic Annotation Workshop
NCBI が主催した Prokaryotic Annotation Workshop に参加した研究者, 主に J. Craig Venter Institute (JCVI) からの要請を受けて, feature/qualifier の記載規則の拡張を検討しました。主として, feature に典拠となる文献などを どのように記載するか, タンパク質コード配列の産物名 (CDS feature における /product qualifier の値) の記載適正化 などを検討しました。
BioProject database
INSDC は, 2005年から, 拡張と変更を経て, 大規模配列データを特定するためのフラグとして project ID の割り当てを検討してきました。
2010 年は, 塩基配列以外の多様な生物学的データ (array, mass spectrometry など) にも project ID を割り当てるべく拡張することになりました。名称も BioProject database とし, NCBI から提供される予定です。
微生物ゲノム登録への strain level taxonomy ID 割り当て
DDBJ/EMBL-Bank/GenBank では, 生物名を共同で構築している taxonomy database で管理しています。
taxonomy database では, 微生物のゲノム全長規模の登録に関して, strain level taxonomy ID を付加する運用を廃止する方向で2009年から 検討していましたが, 影響に配慮し, 少なくとも, 今後1年は これまで通り strain level taxonomy ID を付加する運用を続けます。
EBI において European Nucleotide Archive (ENA) 運営開始
2010 年5月から EBI において The European Nucleotide Archive (ENA) の運営が 開始されました。これにより, 欧州における塩基配列の主要な供給元である EMBL Nucleotide Sequence Database (EMBL-Bank) と Trace Archive, Sequence Read Archive の3つの事業が統合されました。

INSDC の各活動を指す名称

2009年から, INSDC を共同運営するメンバーが増えましたので, その活動の区分と方針に関する文書の見直しをしています。

  • INSDC は従来の配列データベース (DDBJ, EMBL-Bank and GenBank) と 次世代シークエンサからの配列のデータベース、Trace Archive を含めた共同事業の総称とすることで合意しました。
  • 次世代シークエンサから出力される生データを協調して収集する INSDC の活動を “Sequence Read Archive” と総称することで合意しました。これに合わせて, DRA の名称を “DDBJ Read Archive” から “DDBJ Sequence Read Archive” へ変更しました。
  • DNA sequence chromatograms (traces) を協調して収集する INSDC の事業を “Trace Archive” と総称することで合意しました。

Sequence Read Archive (SRA)

SRA 紹介論文
SRA のデータモデル詳細について共同で論文を準備します。
新しい配列決定技術への対応
下記の新しい配列決定基盤技術をサポートするために SRA schema を更新予定です。
  • Complete Genomics
  • Helicos
  • Pacific BioSciences
  • Ion Torrent

Feature と Qualifier の記載則改訂

以下に挙げる項目は,特に断り書きがない限り,2010年10月の Feature Table Definition の改訂後に適用されます。

  • conflict feature を廃止します。
    DDBJ に登録されたデータでは既に使用を禁止しています。

  • /codon, /label, /partial の3つの qualifier を廃止します。
    DDBJ に登録されたデータでは既に使用を禁止しています。

  • /gene_synonym は同じ feature 内に /gene または /locus_tag がある場合に使用可能と変更します。

  • 転移因子 (transposable element) の記載方法を変更します。
    2006年から, 転移因子を repeat_region feature と /mobile_element qualifier の組で記載してきましたが, mobile_element feature と /mobile_element_type qualifier を新設し記載するように変更します。
    この変更は 2010 年 12月に実施する予定です。

  • 新規に /whole_replicon qualifier を source feature に記載可能とします。
    ある複製単位 (replicon) の完全長の配列決定を目指したエントリを検索可能にするためのフラグとして記載する予定です。
    この変更の実施時期は未定です。

  • /artificial_location qualifier の書式を変更します。
    2009 年に導入された, /artificial_location qualifier は「値なし」でしたが, その記載理由を分類するために, “heterogenous population sequenced” または “low-quality sequence region” を規定値として記載するように変更します。

  • /experiment および /inference qualifier の書式を拡張します。
    上述の Prokaryotic Annotation Workshop からの要請を踏まえ, /experiment および /inference の書式を 主に feature 内に その記載根拠となる文献の引用のために, 拡張予定です。具体的には, 下記の2点の拡張です。

    • header “COORDINATES”, “DESCRIPTION”, “EXISTS” による分類
    • 証拠を示すための引用文献, PubMed ID (PMID) と Digital Object Identifier (DOI) の記載

    記載例

        /experiment="COORDINATES: N-terminus verified by Edman degradation
        [PMID: 8096212]"
        /inference="DESCRIPTION: similar to AA sequence: INSDC: AAF23014.2"
    
  • pseudogene annotation の改善検討
    上述の Prokaryotic Annotation Workshop からの要請の1つにpseudogene annotation 改善がありました。2009 年の /pseudo qualifier の問題と併せて検討しましたが, 主として既存データとの整合性維持が困難なことにより, 会議では合意に至りませんでした。
    この件は, 再度, 審議される予定です。