Genomic Expression Archive

  • Home
  • Submission Overview
    • Submit microarray experiment
    • Submit sequencing experiment
    • Metadata
    • Data File
    • Validation
    • Single-cell submission guide
    • Spatial gene expression
    • Data without reference sequences
    • Example
    • Array Design
    • Data matrix
    • Reviewer Access
  • FAQ
  • Search (AOE)
    • Search (ArrayExpress)
    • RefEx
  • Downloads
  • About GEA
  • ホーム
  • gea
  • Submit sequencing experiment

Submit sequencing experiment

GEA submission flow

1. 登録アカウントを取得

  • D-way 登録アカウントを作成
  • 公開鍵と center nameをアカウントに登録しGEA登録を可能に

2. BioProject、BioSample と Sequence Read Archive (DRA) に登録

BioProject

  • 研究プロジェクトの内容

BioSample

  • 実験データを得るのに使われた生物学的、物理的にユニークなサンプル

DRA

  • 生シークエンスリードとアライメント

メタデータをタブ区切りテキストファイルで登録できます

DDBJ

  • 解析に使ったリファレンス配列が INSDC に登録されていない場合、ゲノム配列やtranscriptome shotgun assembly を DDBJ に登録します。

3. 解析済みデータファイルをアップロード

  • GEA 登録用ディレクトリに解析済みデータファイルをアップロード

4. DRA submissionを選択

  • GEA 登録の基となる生シークエンスリードを含んでいる DRA submission を一つ選択します
  • GEA 登録の基となる生シークエンスリードが複数の DRA submission に含まれている場合は複数 submission を選択します

5. BioProjectを一つ選択

  • GEA と DRA submission が同じプロジェクトである場合は DRA submission で使用した BioProject を一つ選択します
  • GEA と DRA submission が異なるプロジェクトである場合は DRA submission で使用した BioProject ではないBioProjectを一つ選択します

6. IDF と SDRF を作成

IDF

  • IDF (Investigation Description Format) ファイルで実験デザイン、プロトコールや文献情報といった実験全体を記述します

SDRF

  • SDRF (Sample and Data RelationshipFormat) ファイルでサンプル属性とサンプル、アレイ、データファイル間の関係性を記述します
  • 選択した BioProject、BioSample と DRA submission の内容から生成された SDRF テンプレートファイルに必要な情報を追加します

7. IDF と SDRF を投稿しデータファイルを検証する

  • 登録ウェブシステムから IDF と SDRF を投稿するとアップロードしたデータファイルの 検証処理が自動的に始まります
  • 検証処理を通過した登録が査定されます

登録前のチェックリスト

Single-cell sequencing experiment

ArrayExpress Single-cell submission guideを参照してください。spike-in やデータ解析に必要な追加ファイルを登録する場合は GEA チームに連絡してください。

More than one technology per experiment

GEA では一つの登録に異なる種類のテクノロジー(マイクロアレイとシークエンシング)を含めることはできないため登録を分ける必要があります。間違いを防ぐためそれぞれの登録には同じ研究に属していても明確に区別できるタイトルを付けてください。 一つの登録に異なるアレイデザインを含めることは可能なので、このような場合は GEA チームに連絡してください。

シークエンス実験の登録

新規登録の作成

D-way にログインするとトップページが表示されます。上部の GEA メニューから GEA 登録サイトに移動します。

“Sequencing” を選択した状態で [New submission] をクリックして sequencing experiment submission を作成します。作成と同時に DDBJ ファイルサーバ (ftp-private.ddbj.nig.ac.jp) に対応する GEA 登録用サブディレクトリが登録者のホーム下に作成されます。このサブディレクトリに データファイルをアップロードします。

DDBJ センターから登録者に問い合わせた後三か月以上回答が無い場合は Submission をキャンセルいたします。
1 submission で登録できる SDRF Assay 数の上限は 1,000 です。これを超える場合は submission を分けてください。
Sequencing experiment submissionの新規作成
Sequencing experiment submissionの新規作成

登録のステータスには以下のものがあります。”Data Validated” と “Validation Error” になった登録が査定されます。

登録のステータス一覧

ステータス 説明
New メタデータの投稿前
Data Submitted メタデータとデータファイルが投稿された
Data Validating データファイルの検証処理中
Validation Error データファイルの検証処理エラー
Data Validated メタデータとデータファイルの検証処理が完了
Curating キュレータが登録を査定中
Accession Issued アクセッション番号が発行された
Confidential 公開用ファイルの作成処理が完了し、非公開に保たれている状態
Public 公開されている状態

解析済みファイルのアップロード

データファイルのアップロード方法は「データのアップロード」をご覧ください。

Submission

四年以内の公開予定日指定、もしくは、データ処理後即日公開を選択します。登録者の名前と所属組織は公開されますがメールアドレスは公開されません。

"Delete submission" で投稿前の登録を削除することができます。
登録管理情報を入力します
登録管理情報を入力します

DRA

自身のアカウントで登録した DRA submission を一つ選択します。DRA が未登録の場合は DRA登録サイトで DRA を登録します。

他のアカウントで登録された DRA を参照したい場合は GEA チームに連絡します。

GEA 登録で使う DRA submission を選択
GEA 登録で使う DRA submission を選択

BioProject

自身のアカウントで登録済みの BioProject を一つ選択します。BioProject が未登録の場合は BioProject登録サイトでプロジェクトを登録します。

GEA と DRA submission が同じプロジェクトである場合は DRA submission で使用した BioProject を一つ選択します。 GEA と DRA submission が異なるプロジェクトである場合は DRA submission で使用した BioProject ではない BioProject を一つ選択します

他のアカウントで登録された BioProject を参照したい場合は GEA チームに連絡します。

GEA 登録で使う BioProject を一つ選択します
GEA 登録で使う BioProject を一つ選択します

IDF

IDF (Investigation Description Format) の内容を入力します。

IDFの例

  • Protocol: チェック済みのプロトコールは必須です 
  • Publication: 関連する文献を PubMed ID もしくは DOI で指定します。未公表の文献については ID が発行された後に お知らせください。
  • Data File Type: シークエンシング実験の場合は解析済みデータが必須です。サンプル毎の解析済みデータファイルの登録を強く推奨します。シークエンシング実験に登録可能なファイル形式。
IDF の内容を入力
IDF の内容を入力

SDRF

SDRF テンプレートファイルをダウンロード
SDRF テンプレートファイルをダウンロード

SDRF (Sample and Data Relationship Format) テンプレートファイルをダウンロードして必要な情報を追加します。

SDRF の例

Auto-filled fields.

  • Name columns and attribute columns for Source Name: Generated from BioSamples.
  • SDRF rows: 1 row for 1 Run.
  • Protocols: Protocols described in IDF are inserted to appropriate positions of SDRF with temporary protocol IDs (e.g., ESUB000352_Protocol_1)
  • Technology Type: “sequencing assay” for sequencing submission.
  • SRA Experiment and Run Comments to Extract and Assay Names: Generated from DRA Experiment and Run.

Enter required fields by overwriting <Required: fill in the content> tags.

自動生成される内容

  • 各 Name カラムと Source Name の Attribute カラム: 選択された BioSample の内容から自動生成されます
  • SDRF 行: 1 行 1 BioSample で行が自動生成されます
  • Protocol: IDF で作成されたプロトコールは SDRF の適切な個所にプロトコール ID (例 ESUB000350_Protocol_1) として挿入されます
  • Technology Type: マイクロアレイ登録の場合は “array assay” が固定入力されます
  • Array Design REF: IDF で指定されたアレイデザインアクセッション番号、もしくは、アレイデザインファイル名が自動入力されます

<Required: fill in the content> タグを上書きして必須項目を入力します。

追加入力が必要な項目

  • Material Type: controlled term から適切な語句を一つ記入します。
    • total RNA
    • polyA RNA
    • cytoplasmic RNA
    • nuclear RNA
    • genomic DNA
    • protein
    • other
  • Derived Array Data File と Comment [Derived Array Data File md5]: 解析済みデータファイルのファイル名と md5 チェックサム値 の組を記入します。
  • データファイルと md5 チェックサム値の組は md5sum コマンドの結果を <GEA submission ID>.md5 (例 ESUB000001.md5) ファイルとしてデータファイルと一緒に提供することもできます(SDRF と .md5 ファイルの両方がある場合は .md5 の値が優先されます)。
  • Factor Value[enter experiment factor name here]: 実験で研究している「要因」。growth condition、genotype、organism part 等の研究で解析している変数のことです。これらの変数の実際の値は “Factor Value []” カラムに記載します。例:
    • Factor Value[strain]
    • AT76
    • KU-2003
    • KU-PI499262
SDRF テンプレートの図解、登録者が情報を追加する必要がある部分は黄色で示されている
SDRF テンプレートの図解、登録者が情報を追加する必要がある部分は黄色で示されている

内容を追加した SDRF を選択して Continue をクリックします。

作成した SDRF ファイルを選択
作成した SDRF ファイルを選択

Overview と投稿

最後の Overview タブで IDF と SDRF ファイルをダウンロードして内容をチェックします。修正が必要な場合はタブを戻ってメタデータを修正します。

“Submit” ボタンをクリックして IDF と SDRF を投稿します。

IDF と SDRF の内容を確認してから投稿
IDF と SDRF の内容を確認してから投稿

検証処理

メタデータ投稿時に IDF と SDRF に記載されているデータファイルが対象の登録用ディレクトリにアップロードされていない場合、”Data file is not uploaded” というエラーメッセージが表示され投稿が中断されます。

Validator は validation rule に従ってメタデータをチェックしエラーとワーニングメッセージを表示します。メタデータを投稿するためにはエラーを解消しておく必要があります。

エラーとワーニングメッセージ
エラーとワーニングメッセージ

アクセッション番号

完成した GEA experiment に対して GEA アクセッション番号が発行されます。

査読者用トークンを発行することでの非公開データへのアクセスを提供することができます。

GEA アクセッション番号
GEA アクセッション番号

更新

各データベースにおける更新方法

データベース 更新方法
Annotated sequence database ウェブフォームから依頼
Sequence Read Archive (DRA) D-way にログインして登録者自身で更新
(配列データの追加や削除はウェブフォームから依頼)
Genomic Expression Archive (GEA) ウェブフォームから依頼
BioProject/BioSample ウェブフォームから依頼

アーカイブされた experiment の削除

アーカイブされた Experiment を削除する場合は GEA チームに連絡します。

MD5 チェックサム値

MD5 チェックサム値の取得方法は「MD5 チェックサム値の取得」をご覧ください。