• getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

第31回 INSDC meeting report 2018年5月15-17日 米国ベセスダ

  • ホーム
  • 第31回 INSDC meeting report 2018年5月15-17日 米国ベセスダ

2018

第31回 INSDC meeting report 2018年5月15-17日 米国ベセスダ

DDBJ センター, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は、その共同事業の運営・推進を図るために、年1回、会議を開催しています。
2018年は 5月15日-17日に NCBI で開催され、DDBJ、 ENA、 GenBank、 Sequence Read Archive (SRA) を運営する上での実務的な問題を討論しました。
会議の報告を以下に まとめました。

検討事項と今後の課題

bulk sequence data, conventional sequence data のアクセッション番号と /protein_idの書式拡張
2018 年末までに INSDC は下記の accession number拡張書式の使用を開始する予定です。
  • bulk sequence data, WGS, TSA, TLS については、現在、“4+2+6/7/8” format (4文字の prefix、2桁の set version を示す数値と 6, 7 または 8 桁の数値) ですが、拡張した 6文字の prefix、2桁の set version を示す数値と 7, 8 または 9 桁の数値 (“6+2+7/8/9” format)、例えば、AAAAAA020000001 といった書式も使用します。
  • conventional sequence data については、現在、 “2+6” format (2文字の prefix と 6 桁の数値)を使用していますが、数字を8桁に拡張した “2+8” format も使用します。
  • /protein_id は 現在、“3+5” format (3文字の prefix と 5 桁の数値) を使用していますが、数字を7桁に拡張した “3+7” format も使用します。
International Protein Nomenclature Guidelines の紹介
INSDC は DDBJ, ENA, GenBank の登録者に the international protein nomenclature guidelines を推奨することに合意しました。このガイドラインは UniProt と NCBI に以前からあったガイドラインを NCBI, EBI, the Protein Information Resource, the Swiss Institute for Bioinformatics が統合・再編したものです。このガイドラインは命名のみについて指針です。今後の改訂などは GitHub で追うことができます 。 NCBI Insights と Inside UniProt もご参照ください。
メタゲノムデータ登録の増加
メタゲノムを扱うためのアセンブル・解析手法が発展し、そのデータ登録が増加しています。メタゲノムデータに対応すべく議論しました。 Genomic Standards Consortium からの要請に基づき、 minimum information about a single amplified genome (MISAG) と minimum information about a metagenome-assembled genome (MIMAG) に対応するため、 BioSample とフラットファイルを拡張します。MIMAG と MISAG の詳細は Nat. Biotechnol. 35:725-731 (2017) をご参照ください。

Feature と Qualifier の記載則改訂

以下に挙げる項目は、特に断り書きがない限り、2018年10月以降 Feature Table Definition の改訂後に適用されます。

  • 新 qualifier /metagenome_source を source feature に追加します。
    配列が metagenome に由来しており、かつ、/organism に “xxx metagenome” といった名称が記載されていない場合に、配列の由来となった metagenome 情報を/metagenome_source に記載します。/metagenome_source には taxonomy database に存在する metagenome を含む値 を記載する必要があります。
    /metagenome_source qualifier を記載する場合、 /environmental_sample qualifier の記載が必須です。
  • /EC_number qualifier の定義を少し修正します。

Data Access Policy

COP14 と名古屋議定書に関して
生物多様性条約第14回締約国会議 (COP14) の結果を受けた「デジタル配列情報」を名古屋議定書の対象に含めるべきかどうかに関する議論について、DDBJ から報告しました。 日本学術会議と 国際商業会議所は この動きに反対する意志を表明しています。
INSDC は、以前から、アクセス制限することなく、すべての配列データを公開する方針としています。
GDPR に関して
2018 年5月に the European General Data Protection Regulations (GDPR) が施行されました。ENA はこの法律に関する業務上の変更などを紹介しました。
NGS Quality Score の扱いについて
SRA ストレージの大部分が quality score で占められていますが、配列決定技術も発展を続けており、 ベースコールの正確性はアセンブル・解析結果に大きな影響を与えるものではありません。 利用時のストレージ節約の面でも、登録・利用に際しての転送を容易にする側面からも、 INSDC としては quality score を保持しない方が好ましいと考えています。 将来の NGS データの受け付け方について、ベンダー、解析ツールの管理者、利用者を含む主要な研究コミュニティとともに検討したく思います。