• (2/7 10:00-11:00) DDBJ センターの登録、検索・解析サービス 停止
  • (2/21 10:00-12:00) GEA/DRA/BP/BS システムリリースによる停止

Sequence Read Archive

  • Home
  • Submission
    • Metadata
    • Data Files
  • FAQ
  • Search
  • Downloads
    • FASTQ
    • SRA
  • About DRA
  • ホーム
  • dra
  • DRA の登録

DRA の登録

ヒトを対象とした研究データの登録について
研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対象者を直接特定し得る情報はメタデータから取り除いてください。 ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。

登録の流れ

1. 登録アカウントを取得

D-way 登録アカウントを取得し、公開鍵と center name をアカウントに登録して DRA 登録ができるようにします。

2. DRA 新規登録の作成

D-way にログインし、新規 DRA 登録を作成します。

3. データファイルをアップロード

メタデータの登録の前に、シークエンスデータファイルを受付サーバの DRA 登録ディレクトリにアップロードします。

4. BioProject の登録

研究プロジェクトを BioProject に登録します。登録済みの場合は該当する BioProject を選択します。

5. BioSample の登録

シークエンスデータを取得したサンプルを BioSample に登録します。登録済みの場合は該当する BioSample を選択します。

6. DRA Experiment の登録

サンプルから構築したライブラリー、及び、使用したシークエンス機種の情報を DRA Experiment に登録します。

7. DRA Run の登録

シークエンスデータファイルを Run に登録します。

8. データファイルの検証

シークエンスデータファイルの中身をチェックする検証処理を開始します。

9. アクセッション番号の発行

検証処理をパスすると査定を経て DRA アクセッション番号が発行されます。

DRA へのデータ登録

新規登録の作成

D-way にログインし、上部の DRA メニューから DRA 登録一覧ページへ進みます。

[New submission] をクリックし、新規登録を作成します。 新規登録に対応するディレクトリが受付サーバ (ftp-private.ddbj.nig.ac.jp) に作成されるので、データファイルをこのディレクトリにアップロードします。

* DDBJ センターから登録者に問い合わせた後、三か月以上回答が無い登録はキャンセルします。 * データは Submission 単位で公開されます。データを異なる時期に部分公開したい場合は Submission を分けてください。 * Submission 辺りの上限件数は BioSample:1,000、DRA:2,000 (Run 数)、GEA:1,000 (Assay 数) になります。これらを超える件数を登録する場合、同じ BioProject を参照する複数の submission に分割してください。
新規 DRA 登録の作成
新規 DRA 登録の作成

登録ステータスで進捗状況を把握することができます。
“submission_validated” と “data_error” になった登録が DRA チームで査定されます。

DRA 登録のステータス

ステータス 状態
New メタデータの登録前
metadata_submitted メタデータが登録された
data_validating データファイルの検証処理中
data_error データファイルの検証処理エラー
submission_validated メタデータとデータファイルの検証処理を通過
completed アクセッション番号が発行された
confidential 公開用ファイルの作成処理が完了し、非公開に保たれている
Public 公開された

データファイルのアップロード

データファイルはファイル受付サーバの対応する DRA submission ディレクトリにアップロードします。
アップロード方法は「データのアップロード」をご覧ください。

メタデータの登録

メタデータは「ウェブツールで登録する方法」と「メタデータ登録用エクセル」を使って登録する方法の二通りがあります。
メタデータのオブジェクト数が100を超えるような多件数であり、ウェブツールの応答が遅く、登録作業が困難な場合はエクセルとそこから生成した XML を使った登録方法を推奨します。

ウェブツールでのメタデータ作成

新規登録をクリックし、登録詳細ページへ移動します。

登録詳細ページへ移動
登録詳細ページへ移動

登録詳細ページ中の [Enter/Update metadata] からメタデータ作成ツールを起動します。

メタデータ作成ツールを起動
メタデータ作成ツールを起動

データファイルがアップロードされていない場合、下記のようなメッセージが表示されるので、データファイルをアップロードします。

データファイルがアップロードされていない場合に表示されるメッセージ
データファイルがアップロードされていない場合に表示されるメッセージ

DRA のメタデータは複数のオブジェクトから構成されています。
BioProject と BioSample は別のデータベースに登録されたレコードを参照します。

  • Submission (DRA)
  • BioProject
  • BioSample
  • Experiment (DRA)
  • Run (DRA)
  • Analysis (DRA、登録は任意)

ウェブツールの各項目に内容を英語で入力していきます。
必須項目は赤色のアスタリスク記号 (*) で示されています。
画面下部にある [Save] や次のタブへの移動ボタンをクリックすると、都度、入力内容がチェックされます。エラーが表示された場合は内容を修正します。

ウェブツールはタブ区切りテキストファイル (tsv) でのメタデータ作成をサポートしています。 記入例はメタデータ tsv の記入例シートを参照してください。

Submission

データの管理情報を記入します。
公開予定と登録者を記入します。

Submission に登録情報を入力
Submission に登録情報を入力

Study

Study と Sample タブ画面が表示されない場合、Edge や Firefox で開くと表示されるようになる場合があります。

アカウントで登録した BioProject から該当するものを1つ選びます。
未登録の場合、[register a project] から新たにプロジェクトを登録します。
自身のアカウント以外で登録されたプロジェクトを参照したい場合は DRA チームに連絡します。

BioProject の選択、もしくは、新規登録
BioProject の選択、もしくは、新規登録

BioProject の登録方法は「プロジェクトの登録」を参照してください。
登録者と公開予定は DRA Submission で入力した内容が引き写されます。

BioProject の登録後、登録したプロジェクトが選択されます。

登録された BioProject が選択される
登録された BioProject が選択される

Sample

アカウントで登録した BioSample から該当するものを選びます (DRA では数サンプルが一般的です)。 チェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。 また、カラム上部のボックスにテキストを入力しフィルターされた全てのサンプルを [Select filtered BioSamples] で選択することができます。 未登録の場合、[register sample(s)] から新たにサンプルを登録します。
自身のアカウント以外で登録されたサンプルを参照したい場合は DRA チームに連絡します。

BioSample の選択 or 新規登録
BioSample の選択 or 新規登録

BioSample の登録方法は「サンプルの登録」を参照してください。 登録者と公開予定は DRA Submission で入力した内容が引き写されます。

BioSample の登録後、登録したサンプルが選択されます。

登録されたサンプルが選択される
登録されたサンプルが選択される

Experiment

初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample-Experiment-Run がリンクされています。
Experiment と Run の自動生成は Experiment タブの初回表示時にのみ行われ、自動生成後に BioSample を選択し直した場合、追加の自動生成は行われません。

三つの BioSample を選択した場合の Experiment と Run の自動生成。
| BioProject | - BioSample (1) | - Experiment (1) | - Run (1) | | | - BioSample (2) | - Experiment (2) | - Run (2) | | | - BioSample (3) | - Experiment (3) | - Run (3) |

Experiment は [Add new Experiment(s)] で追加できます。 また、Experiment は [Delete] で削除することができますが、Run から参照されている Experiment は削除することができません。

各 BioSample を参照している Experiment の自動生成
各 BioSample を参照している Experiment の自動生成

タブ区切りテキストファイルでまとめて Experiment を作成することができます。 まず [Save] で内容を保存し、アクセッション番号が発行されるまでのオブジェクトの仮の名称である Alias (例 test07-0040_Experiment_0001~0003) を確定します。
続いて [Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。

Save して Alias を確定し、タブ区切りテキストファイルをダウンロード
Save して Alias を確定し、タブ区切りテキストファイルをダウンロード

エクセルなどの表計算ソフトでメタデータをまとめて作成します。

“Title” は空の場合、自動的に “[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]” というタイトル(例 “Illumina HiSeq 2000 paired end sequencing of SAMD00025741”)が構築されます。 内容を簡潔に表すタイトルを “Title” 欄に記載することを推奨します。
“BioSample Used” は番号発行済みのサンプルは SAMD アクセッション番号 (例 SAMD00000001) で、未発番のサンプルは “SSUB BioSample Submission ID” : “Sample name” (例 SSUB003746 : Genome bacteria strain A) で指定します。”:” の両側の空白は無視されます。

Experiment テンプレートファイル
Experiment テンプレートファイル

入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] で読み込ませます。

Experiment をタブ区切りテキストファイルとしてアップロード
Experiment をタブ区切りテキストファイルとしてアップロード
エクセルなどの表計算ソフト独自の形式 (.xlsx) ではなくタブ区切りテキストファイルとしてアップロードします。

Run

初期状態で選択された BioSample と同数の Experiment と Run が作成されており、それぞれの Run はユニークな Experiment を参照しています。
下の例では3つの Run が作成され、それぞれが作成された Experiment を参照しています。

[Add another Run(s)] で Run の追加、右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することができません。

Run は [Add another Run(s)] で追加できます。 また、Run は [Delete] で削除することができますが、ファイルがリンクしている Run は削除することができません。

Save して Alias を確定
Save して Alias を確定

[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルで編集できるようになります。
[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。

ファイルと Run をリンクする画面へ移動
ファイルと Run をリンクする画面へ移動

ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を “Run/Analysis contains files” で選択します。

続いて File type と MD5 Checksum を入力します。 タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため Run に登録するファイルの左端の Run/Analysis に “Run” と入力します。

ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれているファイルは1つにまとめられます。
データファイルの属性を入力し Run に結び付ける
データファイルの属性を入力し Run に結び付ける

Analysis (任意) が不要な場合は [Submit/Update DRA metadata] をクリックし、メタデータを登録します。

DRA メタデータの登録
DRA メタデータの登録

メタデータの登録後、データファイルの検証処理を開始します。”Validate uploaded data files to finish this submission” をクリックします。

メタデータの登録後、データファイルの検証処理に進む
メタデータの登録後、データファイルの検証処理に進む

Analysis (任意)

DRA Run に関連するデータで登録先データベースが無いデータを Analysis に登録することができます。Analysis は NCBI と EBI で共有していません。 登録先データベースは登録ナビゲーションとデータベースと登録窓口一覧で確認してください。

必要な数の Analysis を作成後、それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができます。

[Select data files for Analysis] からファイルと Analysis を結び付ける画面に移動します。

Analysis の入力
Analysis の入力

データファイルの属性を入力し、Analysis とリンクさせます。 タブ区切りテキストファイルでまとめて内容を入力する場合、Analysis に登録するファイルを区別するために左端の Run/Analysis に “Analysis” と入力します。

データファイルと Analysis のリンク
データファイルと Analysis のリンク

[Enter/Update metadata] をクリックして内容を登録し、データファイルの検証処理に進みます。
Analysis に登録されたデータファイルは MD5 チェックサム値の破損チェックしか実施されません。

件数が多い場合は Analysis エクセルファイルを使った登録方法を利用してください。

メタデータエクセルを使った登録方法

Run の数が100を超えるような場合で、ウェブツールの応答が遅く、登録作業が困難な場合はエクセルとそこから生成された XML ファイルを使って登録します。
ウェブツールと比べ時間のかかる画面遷移が無く、一回の XML ファイルアップロードで登録を済ませることができる利点があります。
メタデータ登録用エクセルを記入する前に以下を済ませておきます。

  • BioProject の登録
  • BioSample の登録
  • DRA 新規登録の作成
  • データファイルのアップロード

メタデータ登録用エクセルをダウンロードし、内容を記入します。
エクセルの記入例

続いて、メタデータ登録用エクセルから生成した XML を登録、もしくは、メタデータ登録用エクセルを担当者に送付します。

メタデータ登録用エクセルから 生成した XML を登録

コマンドライン操作に慣れている方はこちらの方法で登録してください。大量件数の登録を効率化することができます。

メタデータ登録用エクセルとプログラムを使ってエクセルから XML を生成し、XML を D-way からアップロードすることで多件数を一括で登録します。 GitHub に記載されている手順に従い、メタデータを記入したエクセルからコマンドラインツールで Submission、Experiment、Run XML を生成します。

ウェブツールやエクセルで対応していない technical reads 等の XML 要素を追加する場合、メタデータ XML の例を参照してください。

D-way にログインし、対象 DRA Submission のページに移動します。
以下は DRA Submission “test07-0040” に Submission/Experiment/Run XML をアップロードする例です。

作成した XML のアップロード

メタデータ登録用エクセルを担当者に送付

コマンドライン操作に不慣れな方はエクセルを担当者にメール添付でお送りください。

対象の DRA Ssubmission ID を添え、メール添付でエクセルファイルを DRA チームに送付します。
DRA 担当者がエクセルから XML を生成し、対象の DRA Submission に登録者を代行してアップロードします。
完了後、担当者が登録したメタデータの内容をファイルで返送します。内容を確認後、問題が無ければデータファイルの検証処理に進みます。

検証処理

データファイルの MD5 チェックサム値とファイルの中身がチェックされます。
“Data Files” に「Run と Analysis のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名とその MD5 値」が表示されます。   メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] がクリックできる状態になります。   アップロードされているファイルのうちメタデータに記載されていないものは無視されます。

画面中の [Validate data files] でデータファイルの検証処理を開始します。

シークエンスデータの検証処理を開始
シークエンスデータの検証処理を開始

MD5 Check

メタデータに記載されている MD5 値と、実際のファイルの MD5 値とが一致するかチェックされ、一致しない場合はエラーが表示されます。
手許のファイルの MD5 値を確認し、メタデータ中の値と一致している場合、転送途中でファイルが破損した可能性があるため、ファイルを再度アップロードします。   メタデータ中の MD5 値が間違っている場合、[Enter/Update metadata] からメタデータ中の MD5 値を修正します。

Data Check

ファイルの中身がチェックされます。
問題が無ければ登録のステータスが “submission_validated” になり、検証されたファイルが別ディレクトリに移されます。
登録のステータスが “submission_validated” になると DRA スタッフが査定を始めます。DRA スタッフから指示があるまで D-way を操作せずにお待ちください。

data_error になった場合

検証処理のいずれかのステップでエラーになると、ステータスが “data_error” になります。
エラーへの対処方法は FAQ: データファイルの validation エラーへの対処方法は? を参照してください。
[Stop validation] で検証処理を停止するとステータスが “metadata_submitted” に戻るので、メタデータの修正やファイルの再アップロードを行い、再度 [Validate data files] をクリックして検証処理を再度実施します。

検証処理を停止
検証処理を停止
データを修正
データを修正

アクセッション番号の発行

メタデータとシークエンスデータに問題がなければ、プレフィックス DR のアクセッション番号が各オブジェクトに発行され、登録者にメールで通知されます。 アクセッション番号は登録詳細画面の “Component” でも確認することができます。ステータスは “completed” になります。

  • Submission (prefix DRA)
  • Experiment (prefixDRX)
  • Run (prefixDRR)
  • Analysis (prefix DRZ)

データ公開

データのロード処理が完了するとステータスが “confidential” になります。 即日公開が指定されている場合、深夜にデータが ftp に公開され、数日以内に DDBJ Search でインデックスされます。
NCBI SRA と EBI SRA に公開データはミラーリングされます。

DRA のデータは公開原則に従って公開されます。 こちらの FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは? も参照してください。

オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。

アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供

登録者がアーカイブ済みデータファイルを確認できるようにするため、アクセッション番号が発行された Run の fastq/SRA ファイルは受付サーバ (ftp-private.ddbj.nig.ac.jp) 上の登録者がアクセスできる場所にコピーされます。 ディスク容量の圧迫を防ぐため、コピーされたファイルは作成から一ヶ月後に自動的に削除されます。

  • (submitter’s home)/report/dra/(DRA submission accession)/fastq/
  • (submitter’s home)/report/dra/(DRA submission accession)/sra/

例

  • /report/dra/DRA000001/fastq/DRR000001.fastq.bz2
  • /report/dra/DRA000001/fastq/DRR000002.fastq.bz2
  • /report/dra/DRA000001/fastq/DRR000002_1.fastq.bz2
  • /report/dra/DRA000001/fastq/DRR000002_2.fastq.bz2
  • /report/dra/DRA000001/sra/DRR000001.sra
  • /report/dra/DRA000001/sra/DRR000002.sra

登録の更新

公開予定日の変更

公開予定日は最長で4年後まで指定でき、繰り返し更新することができます。 Hold Date の [Change] をクリックし、公開予定日変更ページに移動し、予定日を変更します。

公開予定日の変更

データを即日公開する場合は “Release Now” をクリックします。 作業した日の深夜に公開処理が実施され、ftp にデータファイルが公開され、数日以内に DDBJ Search にインデックスされます。

メタデータの更新

[Enter/Update metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完了後、メタデータ作成ツールの [Submit/Update DRA metadata] をクリックし、更新内容を反映させます。

関連する文献が公表された場合は、pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。

データファイルの追加

DRA では登録が完了した Run データファイルの追加・変更はできません。 別の Submission で新しく Experiment-Run のセットを追加し、既存の BioProject や BioSample を参照することでデータを追加します。

D-way にログインし、[New submission] をクリックし、新規 DRA 登録を作成します。 作成した新規登録でデータを追加する対象の BioProject と BioSample を選択します。

  • 新たにサンプルを追加する場合は BioProject を共有し、新規登録で BioSample-Experiment-Run を追加します。
  • 既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し、新規登録で Experiment-Run を追加します。

続いて DRA Experiment と Run タブで、Experiment、Run とデータファイルを追加します。

メタデータを登録し、ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアクセッション番号が発行されます。

追加したデータに対応する BioProject 番号は同一ですが、Submission に対する DRA 番号は異なります。
サンプルの追加
サンプルの追加
サンプルへのデータ追加
サンプルへのデータ追加

DRA 番号を論文で引用しており、既存 DRA Submission にデータファイルを直接追加したい場合、DRA チームに連絡してください。

オブジェクトの削除

Experiment、Run や Analysis などを削除する場合は DRA チームに連絡してください。

MD5 チェックサム値

MD5 チェックサム値の取得方法は「MD5 チェックサム値の取得」をご覧ください。