• DDBJ Search で新規公開・再公開された DRA が検索できません
  • DRA 検証処理における不具合
  • (5/3-5/6) ゴールデンウィーク中の対応について

Sequence Read Archive

  • Home
  • Submission
    • Metadata
    • Data Files
    • Update
    • Example
    • Analysis
  • FAQ
  • Search
  • Downloads
    • FASTQ
    • SRA
  • ホーム
  • dra
  • DRA 登録

DRA 登録

ヒトを対象とした研究データの登録について
研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対象者を直接特定し得る情報はメタデータから取り除いてください。 ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。

登録の流れ

  • DDBJ アカウントの取得
  • 新規登録の作成
  • データファイルのアップロード
  • BioProject の登録
  • BioSample の登録
  • Submission
  • Experiment/Run の入力
    • ウェブツールで登録
    • エクセルで登録
  • データファイルの検証処理
  • アクセッション番号

登録ステータス

ステータスで進捗状況を把握することができます。”submission_validated” と “data_error” になった登録が DRA チームで査定されます。

ステータス 説明
new メタデータの登録前
metadata_submitted メタデータが登録された
data_validating データファイルの検証処理中
data_error データファイルの検証処理エラー
submission_validated メタデータとデータファイルの検証処理を通過
completed アクセッション番号が発行された
confidential 公開用ファイルの作成が完了し、非公開に保たれている
public 公開
wait_for_release 公開まで30日以内
canceled キャンセル

登録アカウントの取得

DDBJ アカウントを取得し、公開鍵をアカウントに登録します。

新規登録の作成

D-way にログインし、上部のメニューから DRA 登録一覧ページへ進みます。

[New submission] で新規登録を作成します。 新規登録に対応するディレクトリ(例 test07-0040/)が受付サーバ (ftp-private.ddbj.nig.ac.jp) に作成されるので、このディレクトリにデータファイルをアップロードします。

  • 問い合わせ後、三か月以上回答がない登録はキャンセルします。
  • データは Submission 単位で公開されます。データを異なる時期に公開したい場合は Submission を分けてください。
  • Submission 辺りの上限は BioSample:1,000、DRA:2,000 (Run 数)、GEA:1,000 (Assay 数) になります。これらを超える件数を登録する場合、同じ BioProject を参照する複数の Submission に分割してください。
新規 DRA 登録の作成
新規 DRA 登録の作成

データファイルのアップロード

データファイルはファイル受付サーバの対応する Submission ディレクトリ(例 test07-0040/)にアップロードします。 アップロード方法は「データのアップロード」をご覧ください。データをアップロードしないとメタデータを作成することはできません。

メタデータの登録

メタデータは複数のオブジェクトから構成されています (構成例)。 BioProject と BioSample は別のデータベースに登録されたレコードを参照します。

  • Submission (DRA)
  • BioProject
  • BioSample
  • Experiment (DRA)
  • Run (DRA)
  • Analysis (DRA、登録は任意)

メタデータは「ウェブツールで登録する方法」と「メタデータ登録用エクセル」を使った二通りの方法があります。 オブジェクト数が多い場合はエクセルを使った方法を推奨します。

以下ではウェブツールでの作成方法を説明します。

Submission ID リンク(例 test07-0040)から登録詳細ページへ移動します。

登録詳細ページへ移動
登録詳細ページへ移動

登録詳細ページ中の [Enter/Update metadata] でメタデータ作成ツールを起動します。

メタデータ作成ツールを起動
メタデータ作成ツールを起動

データファイルがアップロードされていない場合、下記のようなメッセージが表示されるので、メタデータを作成する前にデータファイルをアップロードします。

データファイルがアップロードされていない場合に表示されるメッセージ
データファイルがアップロードされていない場合に表示されるメッセージ

各項目を英語で入力していきます。 必須項目は赤色のアスタリスク記号 (*) で示されています。 画面下部にある [Save] や別のタブへの移動ボタンをクリックすると、都度、入力内容がチェックされます。エラーが表示された場合は内容を修正します。

ウェブツールはタブ区切りテキストファイル (tsv) でのメタデータ入力をサポートしています。 記入例はメタデータ tsv の記入例を参照してください。

Submission

管理情報を記入します。 公開予定、登録者と連絡先メールアドレスを記入します。 Submitting organization (旧 center name) はアカウントの Organiztion の内容が引き写されます。

DRA 登録に関するメールは Submission に記入されたメールアドレスに対して送信されます。 DDBJ アカウントに登録されているメールアドレスを変更した場合、登録に関するメールが送信されるよう、DRA Submission のアドレスも変更してください。
Submission に登録情報を入力
Submission に登録情報を入力

BioProject

ブラウザーで BioProject が表示されない不具合が生じることがあります。その場合、ブラウザーのプライベートモードや他のブラウザー(Microsoft Edge でうまくいったケースが報告されています)を試してみてください。

アカウントで登録した BioProject から該当するものを1つ選びます。 未登録の場合、[register a project] から新たにプロジェクトを登録します。 自身のアカウント以外で登録された BioProject を参照したい場合は外部参照を申請します。

BioProject の選択、もしくは、新規登録
BioProject の選択、もしくは、新規登録

BioProject の登録方法は「プロジェクトの登録」を参照してください。 登録者と公開予定は DRA Submission で入力した内容が引き写されます。BioProject の登録後、登録したプロジェクトが選択された状態になります。

登録された BioProject が選択された状態
登録された BioProject が選択された状態

BioSample

ブラウザーで BioSample が表示されない不具合が生じることがあります。その場合、ブラウザーのプライベートモードや他のブラウザー(Microsoft Edge でうまくいったケースが報告されています)を試してみてください。

アカウントで登録した BioSample から該当するものを選びます (一般的に DRA ではサンプルは複数になります)。 チェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。 また、カラム上部のボックスにテキストを入力しフィルターされた全てのサンプルを [Select filtered BioSamples] で選択することができます。 未登録の場合、[register sample(s)] から新たにサンプルを登録します。 自身のアカウント以外で登録された BioSample を参照したい場合は外部参照を申請します。

BioSample の選択、もしくは、新規登録
BioSample の選択、もしくは、新規登録

BioSample の登録方法は「サンプルの登録」を参照してください。 登録者と公開予定は DRA Submission で入力した内容が引き写されます。BioSample の登録後、登録したサンプルが選択された状態になります。

登録されたサンプルが選択された状態
登録されたサンプルが選択された状態

Experiment

初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample-Experiment-Run がリンクされた状態になります。 Experiment と Run の自動生成は Experiment タブの初回表示時にのみ実施され、その後は実施されません。

三つの BioSample を選択した場合の Experiment と Run の自動生成。

BioProject - BioSample (1) - Experiment (1) - Run (1)
  - BioSample (2) - Experiment (2) - Run (2)
  - BioSample (3) - Experiment (3) - Run (3)

Experiment は [Add new Experiment(s)] で追加できます。 また、Experiment は [Delete] で削除することができますが、Run から参照されている Experiment は削除できません。

BioSample を参照している Experiment の自動生成
BioSample を参照している Experiment の自動生成

タブ区切りテキストファイルでまとめて Experiment を入力することができます。 まず [Save] で内容を保存し、Alias(アクセッション番号が発行されるまでのオブジェクトの仮の名称。例 test07-0040_Experiment_0001~0003)を確定します。 続いて [Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。

Save して Alias を確定し、タブ区切りテキストファイルをダウンロード
Save して Alias を確定し、タブ区切りテキストファイルをダウンロード

エクセルなどの表計算ソフトでメタデータをまとめて作成します。

“Title” は空の場合、自動的に “[Sequencing Instrument Model] [paired end] sequencing of [BioSample accession]” というタイトル(例 “Illumina HiSeq 2000 paired end sequencing of SAMD00025741”)が構築されます。 内容を簡潔に表すタイトルを “Title” 欄に記載することを推奨します。 “BioSample Used” では BioSample アクセッション番号 (例 SAMD00000001)、もしくは、”SSUB Submission ID” : “Sample name” (例 SSUB003746 : Genome bacteria strain A) の形式で参照する BioSample を指定します。”:” の両側の空白は無視されます。

Experiment タブ区切りテキストファイル
Experiment タブ区切りテキストファイル

入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] で読み込ませます。

Experiment をタブ区切りテキストファイルとしてアップロード
Experiment をタブ区切りテキストファイルとしてアップロード

Run

初期状態では、選択された Experiment と同数の Run が作成され、それぞれの Experiment を参照しています。下の例では3つの Run が作成され、それぞれが作成された Experiment を参照しています。

[Add another Run(s)] で Run の追加、右端の [Delete] で Run を削除します。ファイルが紐づいている Run は削除することができません。

Run は [Add another Run(s)] で追加できます。 また、Run は [Delete] で削除することができますが、ファイルがリンクしている Run は削除することができません。

Save して Alias を確定
Save して Alias を確定

[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルで編集できるようになります。 [Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。

ファイルと Run をリンクする画面へ移動
ファイルと Run をリンクする画面へ移動

ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を “Run/Analysis contains files” で選択します。

続いて File type と MD5 Checksum を入力します。 タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため Run に登録するファイルの左端の Run/Analysis に “Run” と入力します。

ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれているファイルは1つの sra/fastq ファイルに変換されます。
データファイルの属性を入力し、ファイルと Run を結び付ける
データファイルの属性を入力し、ファイルと Run を結び付ける

Analysis (任意) が不要な場合は [Submit/Update DRA metadata] でメタデータを登録します。

DRA メタデータの登録
DRA メタデータの登録

メタデータの登録後、データファイルの検証処理を開始します。”Validate uploaded data files to finish this submission” をクリックします。

メタデータの登録後、データファイルの検証処理に進む
メタデータの登録後、データファイルの検証処理に進む

Analysis (任意)

DRA Run に関連するデータで登録先データベースがないデータを Analysis に登録することができます。Analysis は NCBI と EBI で共有していません。 登録先データベースは登録ナビゲーションとデータベースと登録窓口一覧で確認してください。

Analysis を作成後、それぞれの Analysis について内容を記入します。不要な Analysis は [Delete] ボタンで削除します。

[Select data files for Analysis] からファイルと Analysis を結び付ける画面に移動します。

Analysis の入力
Analysis の入力

データファイルの属性を入力し、Analysis とリンクさせます。 タブ区切りテキストファイルでまとめて入力する場合、Analysis に登録するファイルを区別するため、左端の Run/Analysis に “Analysis” と入力します。

データファイルと Analysis のリンク
データファイルと Analysis のリンク

[Enter/Update metadata] で内容を登録し、データファイルの検証処理に進みます。 Analysis に登録されたデータファイルは MD5 チェックサム値の一致チェックのみ実施されます。

件数が多い場合は Analysis エクセルファイルを使った登録方法をご利用ください。

エクセルを使った登録方法

ウェブツールと比べて画面遷移が無く、一回の XML ファイルアップロードで登録を済ませることができます。 メタデータ登録用エクセルを記入する前に以下を済ませておきます。

  • BioProject の登録
  • BioSample の登録
  • DRA 新規登録の作成
  • データファイルのアップロード

メタデータ登録用エクセルをダウンロードし、内容を記入します。
続いて、以下の手順でエクセルからコマンドラインで XML を生成し、XML を登録します。

手順が分からない方は対象の DRA Submission ID を添え、メール添付でエクセルファイルを DRA 担当者に送付してください。担当者が XML を生成し、登録します。内容を確認後、問題がなければデータファイルの検証処理に進んでください。

GitHub に記載されている手順に従い、エクセルからコマンドラインツールで Submission、Experiment、Run XML を生成します。

ウェブツールやエクセルで入力できない technical read 等の XML 要素を追加する場合、メタデータ XML の例を参照してください。

D-way にログインし、対象 Submission のページに移動します。 以下は DRA Submission “test07-0040” に Submission/Experiment/Run XML をアップロードする例です。

XML のアップロード
XML のアップロード

検証処理

データファイルのチェックサム値とファイルの中身がチェックされます。 “Data Files” に「メタデータに記載されているファイル名と md5 値」及び「受付サーバにアップロードされたファイル名と md5 値」が表示されます。   メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] が押下できる状態になります。アップロードされているファイルのうちメタデータに記載されていないものは無視されます。

画面中の [Validate data files] でデータファイルの検証処理を開始します。

データファイルの検証処理を開始
データファイルの検証処理を開始

MD5 Check

メタデータに記載されている MD5 値と、実際のそれとが一致するかチェックされます。一致しなかった場合はエラーが表示されます。 手許のファイルの MD5 値がメタデータ中のそれと一致している場合、転送過程でファイルが破損した可能性があるため、ファイルを再度アップロードします。メタデータ中の MD5 値が間違っている場合、[Enter/Update metadata] からメタデータ中の MD5 値を修正します。

Data Check

ファイルの中身がチェックされます。 問題が無ければ登録のステータスが “submission_validated” になり、検証されたファイルが別ディレクトリに移されます。 登録のステータスが “submission_validated” になると DRA スタッフが査定を始めます。DRA スタッフから指示があるまで D-way を操作せずにお待ちください。

Data Error

検証処理のいずれかのステップでエラーになると、ステータスが “data_error” になります。 エラーへの対処方法は「FAQ: データファイルの validation エラーへの対処方法は?」を参照してください。 [Stop validation] で検証処理を停止するとステータスが “metadata_submitted” に戻るので、メタデータの修正やファイルの再アップロードを行い、再度 [Validate data files] をクリックして検証処理を実施します。

検証処理を停止
検証処理を停止
データを修正
データを修正

アクセッション番号

メタデータとデータファイルに問題がなければ、メタデータオブジェクトにアクセッション番号が発行され、登録者にメールで通知されます。番号は登録詳細ページでも確認することができます。

  • Experiment (プレフィックス DRX)
  • Run (プレフィックス DRR)
  • Analysis (プレフィックス DRZ)

アクセッション番号の引用については「FAQ: 投稿論文ではどのアクセッション番号を引用するべきでしょうか?」をご覧ください。

データ公開

データは公開原則に従って公開されます。 参照関係にあるデータとの連動公開については、「FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?」を参照してください。
公開されるとデータが ftp に公開され、数日以内に DDBJ Search でインデックスされ、NCBI SRA と EBI SRA にミラーリングされます。

オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けてください。

登録済みファイルの提供

登録済みデータを確認できるようにするため、登録が完了した Run の fastq/sra ファイルは受付サーバ (ftp-private.ddbj.nig.ac.jp) の登録者領域にコピーされます。ディスク容量圧迫を防ぐため、コピーされたファイルは一ヶ月後に削除されます。

  • /report/dra/(DRA submission accession)/fastq/
  • /report/dra/(DRA submission accession)/sra/

例 /report/dra/DRA000001/fastq/DRR000001.fastq.bz2

更新

公開予定日延長、メタデータの更新やデータの追加・削除については DRA の更新をご覧ください。