Sequence Read Archive
DRA の登録
登録アカウントを取得
D-way 登録アカウントを取得し、公開鍵と center name をアカウントに登録して DRA 登録ができるようにします。
新規登録の作成
D-way にログインし、上部の DRA メニューから DRA 登録一覧ページへ進みます。
[New submission] をクリックし、新規登録を作成します。 新規登録に対応するディレクトリが受付サーバ (ftp-private.ddbj.nig.ac.jp) に作成されるので、データファイルをこのディレクトリにアップロードします。
データファイルのアップロード
データファイルはファイル受付サーバの対応する DRA submission ディレクトリにアップロードします。
アップロード方法は「データのアップロード」をご覧ください。
メタデータの登録
DRA のメタデータは複数のオブジェクトから構成されています (構成例)。 BioProject と BioSample は別のデータベースに登録されたレコードを参照します。
- Submission (DRA)
- BioProject
- BioSample
- Experiment (DRA)
- Run (DRA)
- Analysis (DRA、登録は任意)
メタデータは「ウェブツールで登録する方法」と「メタデータ登録用エクセル」を使って登録する方法の二通りがあります。 オブジェクト数が多件数の場合はエクセルとそこから生成した XML を使った登録方法を推奨します。
以下ではウェブツールでの作成方法を説明します。
新規登録をクリックし、登録詳細ページへ移動します。
登録詳細ページ中の [Enter/Update metadata] からメタデータ作成ツールを起動します。
データファイルがアップロードされていない場合、下記のようなメッセージが表示されるので、データファイルをアップロードします。
ウェブツールの各項目に内容を英語で入力していきます。
必須項目は赤色のアスタリスク記号 (*) で示されています。
画面下部にある [Save] や次のタブへの移動ボタンをクリックすると、都度、入力内容がチェックされます。エラーが表示された場合は内容を修正します。
ウェブツールはタブ区切りテキストファイル (tsv) でのメタデータ作成をサポートしています。 記入例はメタデータ tsv の記入例シートを参照してください。
Submission
データの管理情報を記入します。
公開予定と登録者を記入します。
BioProject
アカウントで登録した BioProject から該当するものを1つ選びます。
未登録の場合、[register a project] から新たにプロジェクトを登録します。
自身のアカウント以外で登録されたプロジェクトを参照したい場合は DRA チームに連絡します。
BioProject の登録方法は「プロジェクトの登録」を参照してください。
登録者と公開予定は DRA Submission で入力した内容が引き写されます。
BioProject の登録後、登録したプロジェクトが選択されます。
BioSample
アカウントで登録した BioSample から該当するものを選びます (DRA では数サンプルが一般的です)。
チェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。
また、カラム上部のボックスにテキストを入力しフィルターされた全てのサンプルを [Select filtered BioSamples] で選択することができます。
未登録の場合、[register sample(s)] から新たにサンプルを登録します。
自身のアカウント以外で登録されたサンプルを参照したい場合は DRA チームに連絡します。
BioSample の登録方法は「サンプルの登録」を参照してください。 登録者と公開予定は DRA Submission で入力した内容が引き写されます。
BioSample の登録後、登録したサンプルが選択されます。
Experiment
初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample-Experiment-Run がリンクされています。
Experiment と Run の自動生成は Experiment タブの初回表示時にのみ行われ、自動生成後に BioSample を選択し直した場合、追加の自動生成は行われません。
三つの BioSample を選択した場合の Experiment と Run の自動生成。
| BioProject | - BioSample (1) | - Experiment (1) | - Run (1) |
| | - BioSample (2) | - Experiment (2) | - Run (2) |
| | - BioSample (3) | - Experiment (3) | - Run (3) |
Experiment は [Add new Experiment(s)] で追加できます。 また、Experiment は [Delete] で削除することができますが、Run から参照されている Experiment は削除することができません。
タブ区切りテキストファイルでまとめて Experiment を作成することができます。
まず [Save] で内容を保存し、アクセッション番号が発行されるまでのオブジェクトの仮の名称である Alias (例 test07-0040_Experiment_0001~0003) を確定します。
続いて [Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。
エクセルなどの表計算ソフトでメタデータをまとめて作成します。
“Title” は空の場合、自動的に “[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]” というタイトル(例 “Illumina HiSeq 2000 paired end sequencing of SAMD00025741”)が構築されます。
内容を簡潔に表すタイトルを “Title” 欄に記載することを推奨します。
“BioSample Used” は番号発行済みのサンプルは SAMD アクセッション番号 (例 SAMD00000001) で、未発番のサンプルは “SSUB BioSample Submission ID” : “Sample name” (例 SSUB003746 : Genome bacteria strain A) で指定します。”:” の両側の空白は無視されます。
入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] で読み込ませます。
Run
初期状態で選択された BioSample と同数の Experiment と Run が作成されており、それぞれの Run はユニークな Experiment を参照しています。
下の例では3つの Run が作成され、それぞれが作成された Experiment を参照しています。
[Add another Run(s)] で Run の追加、右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することができません。
Run は [Add another Run(s)] で追加できます。 また、Run は [Delete] で削除することができますが、ファイルがリンクしている Run は削除することができません。
[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルで編集できるようになります。
[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。
ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を “Run/Analysis contains files” で選択します。
続いて File type と MD5 Checksum を入力します。 タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため Run に登録するファイルの左端の Run/Analysis に “Run” と入力します。
Analysis (任意) が不要な場合は [Submit/Update DRA metadata] をクリックし、メタデータを登録します。
メタデータの登録後、データファイルの検証処理を開始します。”Validate uploaded data files to finish this submission” をクリックします。
Analysis (任意)
DRA Run に関連するデータで登録先データベースが無いデータを Analysis に登録することができます。Analysis は NCBI と EBI で共有していません。 登録先データベースは登録ナビゲーションとデータベースと登録窓口一覧で確認してください。
必要な数の Analysis を作成後、それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができます。
[Select data files for Analysis] からファイルと Analysis を結び付ける画面に移動します。
データファイルの属性を入力し、Analysis とリンクさせます。 タブ区切りテキストファイルでまとめて内容を入力する場合、Analysis に登録するファイルを区別するために左端の Run/Analysis に “Analysis” と入力します。
[Enter/Update metadata] をクリックして内容を登録し、データファイルの検証処理に進みます。
Analysis に登録されたデータファイルは MD5 チェックサム値の破損チェックしか実施されません。
エクセルを使った登録方法
Run の数が100を超えるような場合で、ウェブツールの応答が遅く、登録作業が困難な場合はエクセルとそこから生成された XML ファイルを使って登録します。
ウェブツールと比べ時間のかかる画面遷移が無く、一回の XML ファイルアップロードで登録を済ませることができる利点があります。
メタデータ登録用エクセルを記入する前に以下を済ませておきます。
メタデータ登録用エクセルをダウンロードし、内容を記入します。
エクセルの記入例
続いて、メタデータ登録用エクセルから生成した「XML を登録」、もしくは、「エクセルを担当者に送付」します。 コマンドライン操作に慣れている方は XML を直接登録してください。大量件数の登録を効率化することができます。
メタデータ登録用エクセルとプログラムを使ってエクセルから XML を生成し、XML を D-way からアップロードすることで多件数を一括で登録します。 GitHub に記載されている手順に従い、メタデータを記入したエクセルからコマンドラインツールで Submission、Experiment、Run XML を生成します。
ウェブツールやエクセルで対応していない technical reads 等の XML 要素を追加する場合、メタデータ XML の例を参照してください。
D-way にログインし、対象 DRA Submission のページに移動します。
以下は DRA Submission “test07-0040” に Submission/Experiment/Run XML をアップロードする例です。
コマンドライン操作に不慣れな方はエクセルを担当者にメール添付でお送りください。
対象の DRA Ssubmission ID を添え、メール添付でエクセルファイルを DRA チームに送付します。
DRA 担当者がエクセルから XML を生成し、対象の DRA Submission に登録者を代行してアップロードします。
完了後、担当者が登録したメタデータの内容をファイルで返送します。内容を確認後、問題が無ければデータファイルの検証処理に進みます。
検証処理
データファイルの MD5 チェックサム値とファイルの中身がチェックされます。
“Data Files” に「Run と Analysis のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名とその MD5 値」が表示されます。
メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] がクリックできる状態になります。
アップロードされているファイルのうちメタデータに記載されていないものは無視されます。
画面中の [Validate data files] でデータファイルの検証処理を開始します。
MD5 Check
メタデータに記載されている MD5 値と、実際のファイルの MD5 値とが一致するかチェックされ、一致しない場合はエラーが表示されます。
手許のファイルの MD5 値を確認し、メタデータ中の値と一致している場合、転送途中でファイルが破損した可能性があるため、ファイルを再度アップロードします。
メタデータ中の MD5 値が間違っている場合、[Enter/Update metadata] からメタデータ中の MD5 値を修正します。
Data Check
ファイルの中身がチェックされます。
問題が無ければ登録のステータスが “submission_validated” になり、検証されたファイルが別ディレクトリに移されます。
登録のステータスが “submission_validated” になると DRA スタッフが査定を始めます。DRA スタッフから指示があるまで D-way を操作せずにお待ちください。
data_error になった場合
検証処理のいずれかのステップでエラーになると、ステータスが “data_error” になります。
エラーへの対処方法は FAQ: データファイルの validation エラーへの対処方法は? を参照してください。
[Stop validation] で検証処理を停止するとステータスが “metadata_submitted” に戻るので、メタデータの修正やファイルの再アップロードを行い、再度 [Validate data files] をクリックして検証処理を再度実施します。
アクセッション番号の発行
メタデータとシークエンスデータに問題がなければ、アクセッション番号が各オブジェクトに発行され、登録者にメールで通知されます。 アクセッション番号は登録詳細画面の “Component” でも確認することができます。ステータスは “completed” になります。