Genomic Expression Archive
シークエンスデータの登録
登録前のチェックリスト
Single-cell sequencing experiment
Single-cell submission guide を参照してください。spike-in やデータ解析に必要な追加ファイルを登録する場合は GEA チームに連絡してください。
More than one technology per experiment
GEA ではマイクロアレイとシークエンシングを一つの Submission でまとめて登録することはできないため、Submission を分ける必要があります。一つの Submission で複数のアレイデザインを含めることは可能です。このような場合は GEA チームに連絡してください。
シークエンスデータの登録
新規登録の作成
D-way にログインし、上部のメニューから GEA 登録ページに移動します。
“Sequencing” を選択した状態で [New submission] を押下して sequencing experiment submission を作成します。作成と同時にファイルサーバ (ftp-private.ddbj.nig.ac.jp) に対応する登録用ディレクトリが登録者のホーム下に作成されます。このディレクトリにデータファイルをアップロードします。
登録のステータスには以下のものがあります。”Data Validated” と “Validation Error” になった登録が査定されます。
ステータス | 説明 |
---|---|
New | メタデータの登録前 |
Data Submitted | メタデータとデータファイルが登録された |
Data Validating | データファイルの検証処理中 |
Validation Error | データファイルの検証処理エラー |
Data Validated | メタデータとデータファイルの検証処理が完了 |
Curating | キュレータが登録を査定中 |
Accession Issued | アクセッション番号が発行された |
Confidential | 公開用ファイルの作成処理が完了し、非公開に保たれている状態 |
Public | 公開されている状態 |
解析済みファイルのアップロード
データファイルのアップロード方法はデータのアップロードをご覧ください。
Submission
四年以内の公開予定日を指定、もしくは、即日公開を選択します。登録者の名前と所属組織は公開されますが、メールアドレスは公開されません。
DRA
自身のアカウントで登録した DRA submission を一つ選択します。DRA が未登録の場合は DRA 登録サイトで DRA を登録します。他のアカウントで登録された DRA を参照したい場合は、外部参照を申請します。
BioProject
自身のアカウントで登録済みの BioProject を一つ選択します。BioProject が未登録の場合は BioProject 登録サイトでプロジェクトを登録します。
GEA と DRA submission が同じプロジェクトである場合は DRA submission で使用した BioProject を一つ選択します。 GEA と DRA submission が異なるプロジェクトである場合は DRA submission で使用した BioProject 以外の BioProject を一つ選択します。他のアカウントで登録された BioProject を参照したい場合は、外部参照を申請します。
IDF
IDF (Investigation Description Format) の内容を入力します。IDFの例
- Protocol: チェック済みのプロトコールは必須です。
- Publication: 関連する文献を PubMed ID もしくは DOI で指定します。未公表の文献については ID が発行された後にお知らせください。
- Data File Type: シークエンシング実験の場合は解析済みデータが必須です。サンプル毎の解析済みデータファイルの登録を強く推奨します。シークエンシング実験に登録可能なファイル形式。
SDRF
SDRF (Sample and Data Relationship Format) テンプレートファイルをダウンロードして必要な情報を追加します。SDRF の例
自動生成される内容
- 各 Name カラムと Source Name の Attribute カラム: 選択された BioSample の内容から自動生成されます。
- SDRF 行: 1行1 BioSample で行が自動生成されます。
- Protocol: IDF で作成されたプロトコールは SDRF の適切な個所にプロトコール ID (例 ESUB000350_Protocol_1) として挿入されます。
- Technology Type: シークエンス登録の場合は “sequencing assay” が自動入力されます。
- Extract と Assay Name の SRA Experiment と Run Comment: DRA Experiment と Run の内容から自動生成されます。
<Required: fill in the content> タグを上書きして必須項目を入力します。
追加入力が必要な項目
- Material Type: controlled term
から適切な語句を一つ記入します。
- total RNA
- polyA RNA
- cytoplasmic RNA
- nuclear RNA
- genomic DNA
- protein
- other
- Derived Array Data File と Comment[Derived Array Data File md5]: 解析済みデータファイルのファイル名と md5 チェックサム値 の組を記入します。
- データファイルと md5 チェックサム値の組は md5sum コマンドの結果を
.md5 (例 ESUB000001.md5) ファイルとしてデータファイルと一緒に提供することもできます(SDRF と .md5 ファイルの両方がある場合は .md5 の値が優先されます)。 - Factor Value[enter experiment factor name here]: 実験で研究している「要因」。Growth condition、genotype、organism part 等の研究で解析している変数のことです。これらの変数の実際の値は “Factor Value[]” カラムに記載します。
例: - Factor Value[strain]
- AT76
- KU-2003
- KU-PI499262
内容を追加した SDRF を選択して [Continue] を押下します。
md5 チェックサム値
GEA では md5 チェックサム値をファイル破損検知に利用しています。
データファイルが多い場合やコマンドライン操作に慣れている場合、SDRF に値を記入するのではなく、md5sum コマンドの結果を
例 ESUB000001.md5 (チェックサム値とファイル名の間は半角スペース二個)
ed3d9b2adb5b29aa476b9d4164e208d5 raw1.txt
3d77463ca6f43416a6c1925b7704d304 raw2.txt
0e5be28700daa6d61ea3351921d6e578 processed1.txt
351fb1324feebe954405ca610e46ae44 processed2.txt
3d5749b63617da9002c7376deee8e0a3 array-design.txt
Overview と登録
最後の Overview タブで IDF と SDRF ファイルをダウンロードして内容をチェックします。修正が必要な場合はタブを戻ってメタデータを修正します。
[Submit] を押下して IDF と SDRF を登録します。
検証処理
メタデータ登録時に IDF と SDRF に記載されているデータファイルが対象の登録用ディレクトリにアップロードされていない場合、”Data file is not uploaded” というエラーメッセージが表示され登録が中断されます。
Validator は validation rule に従ってメタデータをチェックしエラーとワーニングメッセージを表示します。メタデータを登録するためにはエラーを解消する必要があります。
アクセッション番号
完成した GEA experiment に対してアクセッション番号が発行されます。 査読者用トークンを発行することでの非公開データへのアクセスを提供することができます。
更新
更新や削除はフォームから GEA チームに依頼してください。