• 復旧(11/25 13:00-11/26 17:00) 緊急ハードウェアメンテナンスのため、登録システムと一部の検索サービスの停止
  • アメリカ連邦政府予算失効によるTaxonomy database更新停止
  • MSSおよびNSSS登録者の方にお願い - submission混雑のため通常よりも遅延しております

DDBJ と SRA におけるデータ処理

  • ホーム
  • DDBJ と SRA におけるデータ処理

生命情報・DDBJ センターは、塩基配列情報のデータベースである DDBJ および Sequence Read Archive (SRA) を運営しています。このページでは、以下について説明しています。

  • 配列データがどのように登録・処理され、一般に公開されるか
  • 配列データの登録者と DDBJ センターの責任
  • データステータスの遷移

INSDC Status Document

データ登録

配列データの登録は、研究者、研究所の職員、シークエンスセンター、データ解析センター、データコーディネーションセンターの職員など、さまざまな人が行うことができます。登録者が配列データとメタデータを DDBJ または SRA に登録する理由としては、以下のようなものがあります。

  • 政府機関、出版社、資金提供者によって定められたデータ共有ポリシーへの準拠
  • Bermuda Principles や FAIR(Findable, Accessible, Interoperable, Reusable)のような研究コミュニティで確立された規範への準拠
  • オープンサイエンスの推進
  • 公益のため

登録者は、登録基準を満たすように配列データを整形し、データを登録する権限を確認し、DDBJ のサービスを利用して配列データとメタデータを登録する責任を負っています。登録時、登録者は配列データの公開予定日(例: 論文の発表予定日)を指定できます。登録者は、非公開データを予定より早く公開したり、公開予定日の延長を依頼できます(例: 論文の発表予定日と揃えるため)。

登録データの処理

DDBJ センターは、登録された配列データを処理する責任を持ちます。処理には、データの完全性や品質を確認する自動および手動チェックの実施、アクセッション番号の付与が含まれます。DDBJ センターは、処理中および公開前に配列データを非公開の Private ステータスで保持します。

基本的に DDBJ センターは登録順に処理を行います。ただし、パンデミックや公衆衛生上の緊急事態に関連する登録については、優先的に処理する場合があります。また、登録者の依頼により、近く発表予定の出版物に関連する登録を優先的に処理することもあります。

DDBJ センターは、公開前であれば、登録者の依頼に応じて登録済み配列データの処理を停止することができます。この場合、DDBJ センターは配列データを公開せず、データを「Canceled」ステータスとして保持します。

また、品質チェックの結果、公開に適さないと判断された場合、DDBJ センターはデータ処理を停止し、その旨を登録者に連絡します。この場合も、データは「Canceled」ステータスとして保持されます。

公開とデータアクセス

DDBJ センターは、配列データを Public ステータスにすることで、データを一般に利用可能にする責任を持ちます。

通常、DDBJ センターは処理完了後、または登録者が指定した公開予定日に配列データを公開します。さらに、処理済みのデータが他のデータベースやウェブリソース、出版物に掲載されたことが確認された場合、公開原則に従い、DDBJ センターは依頼された公開日よりも前にデータを公開します。公開時には登録者に通知されます。

DDBJ センターは、ウェブサイト、国立遺伝学研究所 NIG スーパーコンピュータ(以下、NIG スパコン)、ftpサイト、検索ツール(Search、getentry、ARSA)、および API を通じて配列データを公開します。DDBJ 配列レコードはウェブ検索でアクセッション番号やテキスト検索により利用でき、SRA 配列レコードは NIG スパコンで利用可能です。

公開データは、システム全体に反映されるまでに時間差があります。公開後、配列データはウェブサイト(Search、getentry、ARSA)でアクセッション番号で検索可能となり、さらにテキスト検索用にインデックス化されます。

また、DDBJ センターは、International Nucleotide Sequence Database Collaboration (INSDC) のメンバーである、European Molecular Biology Laboratory (EMBL)、European Bioinformatics Institute (EBI) の European Nucleotide Archive (ENA)、および、米国 National Institutes of Health (NIH)、National Library of Medicine (NLM) の National Center for Biotechnology Information (NCBI)、と配列データを交換しています。これにより、INSDC 各機関は相互に登録データを共有し、包括的なデータ公開を実現しています(ただし、制限付きヒト配列データは共有されません)。

公開された配列データは、他のユーザに配布され、他のウェブサイト、データベース、ツール、出版物、カリキュラム、学会資料などで利用される可能性があります。これらは取得時点でのスナップショットであり、最新の更新やステータス変更を反映していない場合があります。

データのステータス変更依頼

DDBJ および SRA の登録者は、通常、自身のデータのステータス変更を依頼する責任を持ちます。DDBJ センターは、他の INSDC メンバーに登録されたデータのステータスを直接管理せず、変更する必要が生じた場合は、登録者が当該機関に直接依頼する必要があります。

特定の状況では、登録者が公開後にデータの削除を依頼することがあります。DDBJ センターは、その依頼が妥当であること(例:登録者本人からの依頼であること)を確認し、削除の条件に合致するかどうかを判断し、適切な削除方法を決定します。

公開データは、2つの方法で削除されます:「Suppress」または「Withdraw」です。

「Suppress」は、データ品質や出版物との関連などの理由で、アクセッション番号による参照を維持する必要がある場合に適用されます。Suppress されたデータはアクセッション番号で参照可能ですが、テキスト検索や API/ツールからは削除されます。

「Withdraw」は、国家安全保障やプライバシー、インフォームドコンセントの欠如など、公的公開による潜在的な害が懸念される場合に適用されます。Withdrawn データはアクセッション番号によってもアクセスできません。

Suppress または Withdraw の場合、DDBJ センターはデータをアーカイブし、将来的な再公開の可能性を残します。変更が反映されるタイミングはシステムや INSDC 各機関によって異なることがあります。

公開データは、他のリソースに複製される可能性があるため、Suppress または Withdraw のデータが他の場所で利用可能な場合もあります。

登録者は、出版やデータの確認後、Suppress データの再公開を依頼できます。

有効な削除依頼の例には以下があります。

  • 公開データの Suppress の場合:
    • 単一の生物由来として報告されたデータが、公開後に他の生物由来の配列によって汚染されていることが判明した場合。
    • 配列決定された生物の分類学的同定が、公開後に未確認であると判明した場合。例えば、対象生物の配列がほとんど存在せず初期の検証が困難で、当初の指定が誤りであり更新できないと後に判断される場合など。
    • 公開後に、修正できない誤りを含んでいることが判明し、今後の解析に再利用できないと判断される場合。登録者によって特定される誤りには、不正確なアセンブリ、アノテーション、メタデータ、サンプルの取り違え、コンタミネーション、または低品質な配列(例: 登録された配列に十分な裏付け証拠が欠けている場合)が含まれる。
    • 公開後に、許容されないデータタイプや誤った登録であることが判明した場合。
      • 例えば、DDBJ は他の登録者の配列データを、その登録者との共同研究または許可なしに登録することを認めていいません。その場合、そのデータは登録者が TPA 基準 を満たせば Third-Party Annotation (TPA) として登録可能。
      • 登録者が試験的に登録を行った際に、誤って配列データを公開してしまった場合。
    • 登録者が設定した公開予定日を迎えてデータが公開されたが、当該データを参照する論文や解析がまだ完了していない場合。
    • 登録者が DDBJ または SRA における重複データを通知した場合(例: 冗長な登録、更新を新規登録として行ってしまった場合)。可能であれば、元のアクセッション番号を新しいデータに「Secondary」として付与し、元のアクセッション番号で検索した際、新しい番号が返るようにする。ただし、登録者が元のアクセッションと新しいアクセッションの正確な対応関係を提供しない場合、この追跡は不可能であり、その場合は元の登録データが Suppress される。
  • 公開データの Withdraw の場合:
    • 登録者が、公開後に保護されたヒトデータを公開するための適切なインフォームド・コンセントを得ていなかったことが判明した場合。
    • DDBJ センターが(主任研究者、ラボマネージャ、研究機関、ジャーナルなどから)不正行為や詐欺に基づいてデータを撤回すべきとの通知を受けた場合。DDBJ センターは申し立て人や研究機関と協力してその申出を確認する。
    • DDBJ センターが、当該配列データが登録権限を持たない人物によって登録されたとの通知を受けた場合。DDBJ センターは主任研究者、ラボマネージャ、または研究機関と協力してその申出を確認する。
    • DDBJ センターがデータ処理中に誤って配列データを公開してしまった場合。

データステータスの定義

DDBJ および SRA に登録されたデータは、INSDC Status Document で定義されている以下のいずれかのステータスになります。

Canceled: 登録者が処理中の非公開データの登録を中止した場合、または DDBJ センターが公開前に品質上の問題を検出した場合に付与されます。DDBJ センターは、後の公開に備えて一定期間データを保持することがありますが、必ずしも無期限には保持しません。

Private: 非公開データは一切公開されません。登録済みで処理中、または公開予定日を待っている状態。非公開データは内部処理段階のものであり、公開される場合とされない場合があります。

Public: 公開データは完全に検索・利用可能です。DDBJ センターが処理・公開を完了した状態です。

Suppressed: Suppress されたデータは、以前は公開されていたものの、テキスト検索や解析ツールから削除され、アクセッション番号によってのみ参照可能です。将来的に再公開される場合(Temporarily Suppressed)と、されない場合(Permanently Suppressed)があります。

Withdrawn: Withdrawn データは、以前は公開されていたものの、検索やアクセッション番号による参照を含めて一切公開されません。DDBJ センターは、科学記録の整合性や災害時復旧のためにデータを保持しますが、例外的に削除される場合(例:国家安全保障上の理由)もあります。