塩基配列データ登録における INSDC Minimal Specifications について
DDBJ センターは、International Nucleotide Sequence Database Collaboration (INSDC) のメンバーである National Center for Biotechnology Information (NCBI) and European Nucleotide Archive (ENA) と協力し、DDBJ および Sequence Read Archive(SRA)へ塩基配列データを登録するための「Minimal Specifications」を策定いたしました。
背景と目的
1987年の発足以来、INSDC(DDBJ/ENA/NCBI)は全世界の塩基配列データを収集・保管し、オープンに共有してきました。3つのメンバーデータベース間では、すべてのデータが同期される仕組みとなっています。シークエンス技術の進歩に伴い、登録されるデータの量と複雑さは大幅に増大しています。
今回策定された新しい Minimal Specifications は、配列データおよび関連するメタデータがどのように構造化され、交換されるべきかを定義する、統一された枠組みを提供します。明確かつ公式な基準を設けることで、INSDC はデータ品質の一貫性と相互運用性を確保し、将来的な新しいメンバー機関の INSDC 参画への障壁を下げることができます。
INSDC 最低受理基準 の主な構成要素
本基準では、データモデルと合意されたバリデーション要件が定義されており、以下の内容を含みます。
- サポートされるデータ型: Analysis, Annotation, Assembly, Compressed reads, Experiment, Package-checklist, Project, Raw reads, Sample, Sequence, Assembled nucleotide sequences の明確な定義。
- 最小情報要件: 各データ型において提供が必須となるメタデータ(特定のサンプル属性やシークエンシングの詳細など)。
- データの関係性: 生物学的サンプル、シークエンシング実験、およびそれらに基づくアセンブリをリンクするための標準化された手法。
- 統一された品質チェック: ある INSDC メンバーへ登録されたデータが、他のすべてのメンバーによって確実かつ再利用可能な形で再利用されることを保証するバリデーション体制。
DDBJ への登録者への影響
DDBJ または DRA(DDBJ Sequence Read Archive)において、データの処理、アクセッション番号の発行、および公開を行うためには、関連する INSDC Minimal Specifications を満たしている必要があります。
- 既存のワークフローへの影響: 多くの登録者にとって、本基準は既存の慣行を明文化したものです。現在 DDBJ の登録ガイドラインに従っている場合、ワークフローに直ちに大きな変更が生じることはありません。
- バリデーション基準: DDBJ および DRA は、これらの要件を満たさない登録を受理しません。なお、DDBJ ではデータの品質向上と利便性のために、INSDC の最低基準に加えて独自の追加バリデーションを適用する場合があります。
今後
INSDC は、これらの標準の開発、承認、および維持プロセスを記述した論文を出版予定です。これらの仕様は、新たなデータ種別やコミュニティからのフィードバックに応じて、継続的に見直しと更新が行われます。
DDBJ センターは、登録者の皆様が十分な準備期間を持てるよう、標準的な登録ガイダンスを通じて、具体的な更新情報や追加要件を定期的にお伝えしてまいります。