• getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

Genomic Expression Archive

  • Home
  • Submission Overview
    • Submit microarray experiment
    • Submit sequencing experiment
    • Metadata
    • Data File
    • Validation
    • Single-cell submission guide
    • Spatial gene expression
    • Expression analysis using transcriptome as references
    • Example
    • Array Design
    • Data matrix
    • Reviewer Access
  • FAQ
  • Download
  • ホーム
  • gea
  • シークエンスデータの登録

シークエンスデータの登録

登録前のチェックリスト

Single-cell sequencing experiment

Single-cell submission guide を参照してください。spike-in やデータ解析に必要な追加ファイルを登録する場合は GEA チームに連絡してください。

More than one technology per experiment

GEA ではマイクロアレイとシークエンシングを一つの Submission でまとめて登録することはできないため、Submission を分ける必要があります。一つの Submission で複数のアレイデザインを含めることは可能です。このような場合は GEA チームに連絡してください。

シークエンスデータの登録

新規登録の作成

D-way にログインし、上部のメニューから GEA 登録ページに移動します。
“Sequencing” を選択した状態で [New submission] を押下して sequencing experiment submission を作成します。作成と同時にファイルサーバ (ftp-private.ddbj.nig.ac.jp) に対応する登録用ディレクトリが登録者のホーム下に作成されます。このディレクトリにデータファイルをアップロードします。

1 submission で登録できる SDRF Assay 数の上限は 1,000 です。これを超える場合は submission を分けてください。
Sequencing experiment submission の新規作成
Sequencing experiment submission の新規作成

登録のステータスには以下のものがあります。”Data Validated” と “Validation Error” になった登録が査定されます。

登録のステータス一覧

ステータス 説明
New メタデータの登録前
Data Submitted メタデータとデータファイルが登録された
Data Validating データファイルの検証処理中
Validation Error データファイルの検証処理エラー
Data Validated メタデータとデータファイルの検証処理が完了
Curating キュレータが登録を査定中
Accession Issued アクセッション番号が発行された
Confidential 公開用ファイルの作成処理が完了し、非公開に保たれている状態
Public 公開されている状態

解析済みファイルのアップロード

データファイルのアップロード方法はデータのアップロードをご覧ください。

Submission

四年以内の公開予定日を指定、もしくは、即日公開を選択します。登録者の名前と所属組織は公開されますが、メールアドレスは公開されません。

GEA 登録に関するメールは Submission に記載されたメールアドレスに対して送信されます。 DDBJ アカウントに登録されているメールアドレスを変更した場合、登録に関するメールが送信されるよう、GEA Submission のアドレスも変更する必要があります。
登録管理情報を入力します
登録管理情報を入力します

DRA

自身のアカウントで登録した DRA submission を一つ選択します。DRA が未登録の場合は DRA 登録サイトで DRA を登録します。他のアカウントで登録された DRA を参照したい場合は、外部参照を申請します。

GEA 登録で使う DRA submission を選択
GEA 登録で使う DRA submission を選択

BioProject

自身のアカウントで登録済みの BioProject を一つ選択します。BioProject が未登録の場合は BioProject 登録サイトでプロジェクトを登録します。
GEA と DRA submission が同じプロジェクトである場合は DRA submission で使用した BioProject を一つ選択します。 GEA と DRA submission が異なるプロジェクトである場合は DRA submission で使用した BioProject 以外の BioProject を一つ選択します。他のアカウントで登録された BioProject を参照したい場合は、外部参照を申請します。

GEA 登録で使う BioProject を一つ選択します
GEA 登録で使う BioProject を一つ選択します

IDF

IDF (Investigation Description Format) の内容を入力します。IDFの例

  • Protocol: チェック済みのプロトコールは必須です。
  • Publication: 関連する文献を PubMed ID もしくは DOI で指定します。未公表の文献については ID が発行された後にお知らせください。
  • Data File Type: シークエンシング実験の場合は解析済みデータが必須です。サンプル毎の解析済みデータファイルの登録を強く推奨します。シークエンシング実験に登録可能なファイル形式。
IDF の内容を入力
IDF の内容を入力

SDRF

SDRF テンプレートファイルをダウンロード
SDRF テンプレートファイルをダウンロード

SDRF (Sample and Data Relationship Format) テンプレートファイルをダウンロードして必要な情報を追加します。SDRF の例

自動生成される内容

  • 各 Name カラムと Source Name の Attribute カラム: 選択された BioSample の内容から自動生成されます。
  • SDRF 行: 1行1 BioSample で行が自動生成されます。
  • Protocol: IDF で作成されたプロトコールは SDRF の適切な個所にプロトコール ID (例 ESUB000350_Protocol_1) として挿入されます。
  • Technology Type: シークエンス登録の場合は “sequencing assay” が自動入力されます。
  • Extract と Assay Name の SRA Experiment と Run Comment: DRA Experiment と Run の内容から自動生成されます。

<Required: fill in the content> タグを上書きして必須項目を入力します。

追加入力が必要な項目

  • Material Type: controlled term から適切な語句を一つ記入します。
    • total RNA
    • polyA RNA
    • cytoplasmic RNA
    • nuclear RNA
    • genomic DNA
    • protein
    • other
  • Derived Array Data File と Comment[Derived Array Data File md5]: 解析済みデータファイルのファイル名と md5 チェックサム値 の組を記入します。
  • データファイルと md5 チェックサム値の組は md5sum コマンドの結果を .md5 (例 ESUB000001.md5) ファイルとしてデータファイルと一緒に提供することもできます(SDRF と .md5 ファイルの両方がある場合は .md5 の値が優先されます)。
  • Factor Value[enter experiment factor name here]: 実験で研究している「要因」。Growth condition、genotype、organism part 等の研究で解析している変数のことです。これらの変数の実際の値は “Factor Value[]” カラムに記載します。
    例:
  • Factor Value[strain]
  • AT76
  • KU-2003
  • KU-PI499262
SDRF テンプレートの図解、登録者が情報を追加する必要がある部分は黄色
SDRF テンプレートの図解、登録者が情報を追加する必要がある部分は黄色

内容を追加した SDRF を選択して [Continue] を押下します。

作成した SDRF ファイルを選択
作成した SDRF ファイルを選択

md5 チェックサム値

GEA では md5 チェックサム値をファイル破損検知に利用しています。
データファイルが多い場合やコマンドライン操作に慣れている場合、SDRF に値を記入するのではなく、md5sum コマンドの結果を .md5 (例 ESUB000001.md5) ファイルとしてデータファイルと一緒にアップロードして提供する方法が便利です。SDRFと .md5 ファイルの両方がある場合は .md5 の値が優先されます。

例 ESUB000001.md5 (チェックサム値とファイル名の間は半角スペース二個)

ed3d9b2adb5b29aa476b9d4164e208d5  raw1.txt
3d77463ca6f43416a6c1925b7704d304  raw2.txt
0e5be28700daa6d61ea3351921d6e578  processed1.txt
351fb1324feebe954405ca610e46ae44  processed2.txt
3d5749b63617da9002c7376deee8e0a3  array-design.txt

Overview と登録

最後の Overview タブで IDF と SDRF ファイルをダウンロードして内容をチェックします。修正が必要な場合はタブを戻ってメタデータを修正します。
[Submit] を押下して IDF と SDRF を登録します。

IDF と SDRF の内容を確認してから登録
IDF と SDRF の内容を確認してから登録

検証処理

メタデータ登録時に IDF と SDRF に記載されているデータファイルが対象の登録用ディレクトリにアップロードされていない場合、”Data file is not uploaded” というエラーメッセージが表示され登録が中断されます。
Validator は validation rule に従ってメタデータをチェックしエラーとワーニングメッセージを表示します。メタデータを登録するためにはエラーを解消する必要があります。

エラーとワーニングメッセージ
エラーとワーニングメッセージ

アクセッション番号

完成した GEA experiment に対してアクセッション番号が発行されます。 査読者用トークンを発行することでの非公開データへのアクセスを提供することができます。

GEA アクセッション番号
GEA アクセッション番号

更新

更新や削除はフォームから GEA チームに依頼してください。