Sequence Read Archive
DRA の登録
- ヒトを対象とした研究データの登録について
- 研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対象者を直接特定し得る情報はメタデータから取り除いてください。 ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。
登録の流れ
1. 登録アカウントを取得
D-way 登録アカウントを取得し、公開鍵と center name をアカウントに登録して DRA 登録ができるようにします。
2. DRA 新規登録の作成
D-way にログインし、新規 DRA 登録を作成します。
3. データファイルをアップロード
メタデータの登録の前に、シークエンスデータファイルを受付サーバの DRA 登録ディレクトリにアップロードします。
4. BioProject の登録
研究プロジェクトを BioProject に登録します。登録済みの場合は該当する BioProject を選択します。
5. BioSample の登録
シークエンスデータを取得したサンプルを BioSample に登録します。登録済みの場合は該当する BioSample を選択します。
6. DRA Experiment の登録
サンプルから構築したライブラリー、及び、使用したシークエンス機種の情報を DRA Experiment に登録します。
7. DRA Run の登録
シークエンスデータファイルを Run に登録します。
8. データファイルの検証
シークエンスデータファイルの中身をチェックする検証処理を開始します。
9. アクセッション番号の発行
検証処理をパスすると査定を経て DRA アクセッション番号が発行されます。
DRA へのデータ登録
新規登録の作成
D-way にログインし、上部の DRA メニューから DRA 登録一覧ページへ進みます。
[New submission] をクリックし、新規登録を作成します。 新規登録に対応するディレクトリが受付サーバ (ftp-private.ddbj.nig.ac.jp) に作成されるので、データファイルをこのディレクトリにアップロードします。
登録ステータスで進捗状況を把握することができます。
“submission_validated” と “data_error” になった登録が DRA チームで査定されます。
DRA 登録のステータス
ステータス | 状態 |
---|---|
New | メタデータの登録前 |
metadata_submitted | メタデータが登録された |
data_validating | データファイルの検証処理中 |
data_error | データファイルの検証処理エラー |
submission_validated | メタデータとデータファイルの検証処理を通過 |
completed | アクセッション番号が発行された |
confidential | 公開用ファイルの作成処理が完了し、非公開に保たれている |
Public | 公開された |
データファイルのアップロード
データファイルはファイル受付サーバの対応する DRA submission ディレクトリにアップロードします。
アップロード方法は「データのアップロード」をご覧ください。
メタデータの登録
メタデータは「ウェブツールで登録する方法」と「メタデータ登録用エクセル」を使って登録する方法の二通りがあります。
メタデータのオブジェクト数が100を超えるような多件数であり、ウェブツールの応答が遅く、登録作業が困難な場合はエクセルとそこから生成した XML を使った登録方法を推奨します。
ウェブツールでのメタデータ作成
新規登録をクリックし、登録詳細ページへ移動します。
登録詳細ページ中の [Enter/Update metadata] からメタデータ作成ツールを起動します。
データファイルがアップロードされていない場合、下記のようなメッセージが表示されるので、データファイルをアップロードします。
DRA のメタデータは複数のオブジェクトから構成されています。
BioProject と BioSample は別のデータベースに登録されたレコードを参照します。
- Submission (DRA)
- BioProject
- BioSample
- Experiment (DRA)
- Run (DRA)
- Analysis (DRA、登録は任意)
ウェブツールの各項目に内容を英語で入力していきます。
必須項目は赤色のアスタリスク記号 (*) で示されています。
画面下部にある [Save] や次のタブへの移動ボタンをクリックすると、都度、入力内容がチェックされます。エラーが表示された場合は内容を修正します。
ウェブツールはタブ区切りテキストファイル (tsv) でのメタデータ作成をサポートしています。 記入例はメタデータ tsv の記入例シートを参照してください。
Submission
データの管理情報を記入します。
公開予定と登録者を記入します。
Study
アカウントで登録した BioProject から該当するものを1つ選びます。
未登録の場合、[register a project] から新たにプロジェクトを登録します。
自身のアカウント以外で登録されたプロジェクトを参照したい場合は DRA チームに連絡します。
BioProject の登録方法は「プロジェクトの登録」を参照してください。
登録者と公開予定は DRA Submission で入力した内容が引き写されます。
BioProject の登録後、登録したプロジェクトが選択されます。
Sample
アカウントで登録した BioSample から該当するものを選びます (DRA では数サンプルが一般的です)。
チェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。
また、カラム上部のボックスにテキストを入力しフィルターされた全てのサンプルを [Select filtered BioSamples] で選択することができます。
未登録の場合、[register sample(s)] から新たにサンプルを登録します。
自身のアカウント以外で登録されたサンプルを参照したい場合は DRA チームに連絡します。
BioSample の登録方法は「サンプルの登録」を参照してください。 登録者と公開予定は DRA Submission で入力した内容が引き写されます。
BioSample の登録後、登録したサンプルが選択されます。
Experiment
初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample-Experiment-Run がリンクされています。
Experiment と Run の自動生成は Experiment タブの初回表示時にのみ行われ、自動生成後に BioSample を選択し直した場合、追加の自動生成は行われません。
三つの BioSample を選択した場合の Experiment と Run の自動生成。
| BioProject | - BioSample (1) | - Experiment (1) | - Run (1) |
| | - BioSample (2) | - Experiment (2) | - Run (2) |
| | - BioSample (3) | - Experiment (3) | - Run (3) |
Experiment は [Add new Experiment(s)] で追加できます。 また、Experiment は [Delete] で削除することができますが、Run から参照されている Experiment は削除することができません。
タブ区切りテキストファイルでまとめて Experiment を作成することができます。
まず [Save] で内容を保存し、アクセッション番号が発行されるまでのオブジェクトの仮の名称である Alias (例 test07-0040_Experiment_0001~0003) を確定します。
続いて [Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。
エクセルなどの表計算ソフトでメタデータをまとめて作成します。
“Title” は空の場合、自動的に “[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]” というタイトル(例 “Illumina HiSeq 2000 paired end sequencing of SAMD00025741”)が構築されます。
内容を簡潔に表すタイトルを “Title” 欄に記載することを推奨します。
“BioSample Used” は番号発行済みのサンプルは SAMD アクセッション番号 (例 SAMD00000001) で、未発番のサンプルは “SSUB BioSample Submission ID” : “Sample name” (例 SSUB003746 : Genome bacteria strain A) で指定します。”:” の両側の空白は無視されます。
入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] で読み込ませます。
Run
初期状態で選択された BioSample と同数の Experiment と Run が作成されており、それぞれの Run はユニークな Experiment を参照しています。
下の例では3つの Run が作成され、それぞれが作成された Experiment を参照しています。
[Add another Run(s)] で Run の追加、右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することができません。
Run は [Add another Run(s)] で追加できます。 また、Run は [Delete] で削除することができますが、ファイルがリンクしている Run は削除することができません。
[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルで編集できるようになります。
[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。
ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を “Run/Analysis contains files” で選択します。
続いて File type と MD5 Checksum を入力します。 タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため Run に登録するファイルの左端の Run/Analysis に “Run” と入力します。
Analysis (任意) が不要な場合は [Submit/Update DRA metadata] をクリックし、メタデータを登録します。
メタデータの登録後、データファイルの検証処理を開始します。”Validate uploaded data files to finish this submission” をクリックします。
Analysis (任意)
DRA Run に関連するデータで登録先データベースが無いデータを Analysis に登録することができます。Analysis は NCBI と EBI で共有していません。 登録先データベースは登録ナビゲーションとデータベースと登録窓口一覧で確認してください。
必要な数の Analysis を作成後、それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができます。
[Select data files for Analysis] からファイルと Analysis を結び付ける画面に移動します。
データファイルの属性を入力し、Analysis とリンクさせます。 タブ区切りテキストファイルでまとめて内容を入力する場合、Analysis に登録するファイルを区別するために左端の Run/Analysis に “Analysis” と入力します。
[Enter/Update metadata] をクリックして内容を登録し、データファイルの検証処理に進みます。
Analysis に登録されたデータファイルは MD5 チェックサム値の破損チェックしか実施されません。
メタデータエクセルを使った登録方法
Run の数が100を超えるような場合で、ウェブツールの応答が遅く、登録作業が困難な場合はエクセルとそこから生成された XML ファイルを使って登録します。
ウェブツールと比べ時間のかかる画面遷移が無く、一回の XML ファイルアップロードで登録を済ませることができる利点があります。
メタデータ登録用エクセルを記入する前に以下を済ませておきます。
メタデータ登録用エクセルをダウンロードし、内容を記入します。
エクセルの記入例
続いて、メタデータ登録用エクセルから生成した XML を登録、もしくは、メタデータ登録用エクセルを担当者に送付します。
メタデータ登録用エクセルから 生成した XML を登録
コマンドライン操作に慣れている方はこちらの方法で登録してください。大量件数の登録を効率化することができます。
メタデータ登録用エクセルとプログラムを使ってエクセルから XML を生成し、XML を D-way からアップロードすることで多件数を一括で登録します。 GitHub に記載されている手順に従い、メタデータを記入したエクセルからコマンドラインツールで Submission、Experiment、Run XML を生成します。
ウェブツールやエクセルで対応していない technical reads 等の XML 要素を追加する場合、メタデータ XML の例を参照してください。
D-way にログインし、対象 DRA Submission のページに移動します。
以下は DRA Submission “test07-0040” に Submission/Experiment/Run XML をアップロードする例です。
メタデータ登録用エクセルを担当者に送付
コマンドライン操作に不慣れな方はエクセルを担当者にメール添付でお送りください。
対象の DRA Ssubmission ID を添え、メール添付でエクセルファイルを DRA チームに送付します。
DRA 担当者がエクセルから XML を生成し、対象の DRA Submission に登録者を代行してアップロードします。
完了後、担当者が登録したメタデータの内容をファイルで返送します。内容を確認後、問題が無ければデータファイルの検証処理に進みます。
検証処理
データファイルの MD5 チェックサム値とファイルの中身がチェックされます。
“Data Files” に「Run と Analysis のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名とその MD5 値」が表示されます。
メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] がクリックできる状態になります。
アップロードされているファイルのうちメタデータに記載されていないものは無視されます。
画面中の [Validate data files] でデータファイルの検証処理を開始します。
MD5 Check
メタデータに記載されている MD5 値と、実際のファイルの MD5 値とが一致するかチェックされ、一致しない場合はエラーが表示されます。
手許のファイルの MD5 値を確認し、メタデータ中の値と一致している場合、転送途中でファイルが破損した可能性があるため、ファイルを再度アップロードします。
メタデータ中の MD5 値が間違っている場合、[Enter/Update metadata] からメタデータ中の MD5 値を修正します。
Data Check
ファイルの中身がチェックされます。
問題が無ければ登録のステータスが “submission_validated” になり、検証されたファイルが別ディレクトリに移されます。
登録のステータスが “submission_validated” になると DRA スタッフが査定を始めます。DRA スタッフから指示があるまで D-way を操作せずにお待ちください。
data_error になった場合
検証処理のいずれかのステップでエラーになると、ステータスが “data_error” になります。
エラーへの対処方法は FAQ: データファイルの validation エラーへの対処方法は? を参照してください。
[Stop validation] で検証処理を停止するとステータスが “metadata_submitted” に戻るので、メタデータの修正やファイルの再アップロードを行い、再度 [Validate data files] をクリックして検証処理を再度実施します。
アクセッション番号の発行
メタデータとシークエンスデータに問題がなければ、プレフィックス DR のアクセッション番号が各オブジェクトに発行され、登録者にメールで通知されます。 アクセッション番号は登録詳細画面の “Component” でも確認することができます。ステータスは “completed” になります。
- Submission (prefix DRA)
- Experiment (prefixDRX)
- Run (prefixDRR)
- Analysis (prefix DRZ)
データ公開
データのロード処理が完了するとステータスが “confidential” になります。
即日公開が指定されている場合、深夜にデータが ftp に公開され、数日以内に DDBJ Search でインデックスされます。
NCBI SRA と EBI SRA に公開データはミラーリングされます。
DRA のデータは公開原則に従って公開されます。 こちらの FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは? も参照してください。
アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供
登録者がアーカイブ済みデータファイルを確認できるようにするため、アクセッション番号が発行された Run の fastq/SRA ファイルは受付サーバ (ftp-private.ddbj.nig.ac.jp) 上の登録者がアクセスできる場所にコピーされます。 ディスク容量の圧迫を防ぐため、コピーされたファイルは作成から一ヶ月後に自動的に削除されます。
- (submitter’s home)/report/dra/(DRA submission accession)/fastq/
- (submitter’s home)/report/dra/(DRA submission accession)/sra/
例
- /report/dra/DRA000001/fastq/DRR000001.fastq.bz2
- /report/dra/DRA000001/fastq/DRR000002.fastq.bz2
- /report/dra/DRA000001/fastq/DRR000002_1.fastq.bz2
- /report/dra/DRA000001/fastq/DRR000002_2.fastq.bz2
- /report/dra/DRA000001/sra/DRR000001.sra
- /report/dra/DRA000001/sra/DRR000002.sra
登録の更新
公開予定日の変更
公開予定日は最長で4年後まで指定でき、繰り返し更新することができます。 Hold Date の [Change] をクリックし、公開予定日変更ページに移動し、予定日を変更します。
データを即日公開する場合は “Release Now” をクリックします。 作業した日の深夜に公開処理が実施され、ftp にデータファイルが公開され、数日以内に DDBJ Search にインデックスされます。
メタデータの更新
[Enter/Update metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完了後、メタデータ作成ツールの [Submit/Update DRA metadata] をクリックし、更新内容を反映させます。
関連する文献が公表された場合は、pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。
データファイルの追加
DRA では登録が完了した Run データファイルの追加・変更はできません。 別の Submission で新しく Experiment-Run のセットを追加し、既存の BioProject や BioSample を参照することでデータを追加します。
D-way にログインし、[New submission] をクリックし、新規 DRA 登録を作成します。 作成した新規登録でデータを追加する対象の BioProject と BioSample を選択します。
- 新たにサンプルを追加する場合は BioProject を共有し、新規登録で BioSample-Experiment-Run を追加します。
- 既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し、新規登録で Experiment-Run を追加します。
続いて DRA Experiment と Run タブで、Experiment、Run とデータファイルを追加します。
メタデータを登録し、ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアクセッション番号が発行されます。
DRA 番号を論文で引用しており、既存 DRA Submission にデータファイルを直接追加したい場合、DRA チームに連絡してください。
オブジェクトの削除
Experiment、Run や Analysis などを削除する場合は DRA チームに連絡してください。
MD5 チェックサム値
MD5 チェックサム値の取得方法は「MD5 チェックサム値の取得」をご覧ください。