Genomic Expression Archive
Submit microarray experiment
GEA 登録の流れ
1. 登録アカウントを取得
- D-way 登録アカウントを作成
- 公開鍵をアカウントに登録しGEA 登録を可能に
2. BioProjectとBioSampleを登録
BioProject
- 研究プロジェクトの内容
BioSample
- 実験データを得るのに使われた生物学的、物理的にユニークなサンプル
メタデータをタブ区切りテキストファイルで登録できます
3. 生データと解析済みデータファイルをアップロード
- GEA 登録用ディレクトリに生データと解析済みデータファイルをアップロード
- [必要であれば] アレイデザインが ArrayExpress/GEA に未登録の場合、GEA 登録用ディレクトリにデータファイルと一緒にアレイデザインファイルをアップロード
4. BioProjectとBioSampleを選択
- GEA 登録で参照する BioProject を一つ選択
- GEA 登録で参照する複数 BioSample を選択。通常の GEA 登録は一つ以上のサンプルで構成されます
5. IDF と SDRF を作成
IDF
- IDF (Investigation Description Format) ファイルで実験デザイン、プロトコールや文献情報といった実験全体を記述します
SDRF
- SDRF (Sample and Data RelationshipFormat) ファイルでサンプル属性とサンプル、アレイ、データファイル間の関係性を記述します
- 選択した BioProject と BioSample の内容から生成された SDRF テンプレートファイルに必要な情報を追加します
6. IDFとSDRFを投稿しデータファイルを検証する
- 登録ウェブシステムから IDF と SDRF を投稿するとアップロードしたデータファイルの検証処理が自動的に始まります
- 検証処理を通過した登録が査定されます
登録前のチェックリスト
Two-color microarray experiment
GEA 登録インターフェースは二つのサンプルが一つの生データファイルにリンクしているタイプのtwo-colorワークフローのみをサポートしています(例を参照)。 IDF タブで dual-channel オプションが選択された場合、同時にハイブリダイズした二サンプルに由来する一つのデータファイルが提供されることを想定しています。いくつかの two-color マイクロアレイプラットフォームでは通常それぞれのチャンネルに対応した別々の生データファイルが生成されます。このようなケースでそれぞれのサンプルに一つのファイルを結びつけると検証処理でエラーになります。
各チャンネルに対応した別々のファイルを登録する場合は GEA チームに連絡してください。
Single-cell sequencing experiment
ArrayExpress Single-cell submissionguide を参照してください。 spike-in やデータ解析に必要な追加ファイルを登録する場合は GEA チームに連絡してください。
More than one technology per experiment
GEA では一つの登録に異なる種類のテクノロジー(マイクロアレイとシークエンシング)を含めることはできないため登録を分ける必要があります。間違いを防ぐためそれぞれの登録には同じ研究に属していても明確に区別できるタイトルを付けてください。 一つの登録に異なるアレイデザインを含めることは可能なので、このような場合は GEA チームに連絡してください。
Microarray experiment の登録
新規登録の作成
D-way にログインするとトップページが表示されます。上部の GEA メニューから GEA 登録サイトに移動します。
“Microarray”を選択した状態で[New submission]をクリックして microarray experimentsubmission を作成します。作成と同時に DDBJ ファイルサーバ (ftp-private.ddbj.nig.ac.jp) に対応する GEA 登録用サブディレクトリが登録者のホーム下に作成されます。このサブディレクトリにデータファイルをアップロードします。
DDBJ センターから登録者に問い合わせた後三か月以上回答が無い場合は Submission をキャンセルいたします。
登録のステータスには以下のものがあります。 “Data Validated” と “Validation Error” になった登録が査定されます。
ステータス | 説明 |
---|---|
New | メタデータの投稿前 |
Data Submitted | メタデータとデータファイルが投稿された |
Data Validating | データファイルの検証処理中 |
Validation Error | データファイルの検証処理エラー |
Data Validated | メタデータとデータファイルの検証処理が完了 |
Curating | キュレータが登録を査定中 |
Accession Issued | アクセッション番号が発行された |
Confidential | 公開用ファイルの作成処理が完了し、非公開に保たれている状態 |
Public | 公開されている状態 |
生データと解析済みファイルのアップロード
データファイルのアップロード方法は「データのアップロード」をご覧ください。
Submission
四年以内の公開予定日指定、もしくは、データ処理後即日公開を選択します。登録者の名前と所属組織は公開されますがメールアドレスは公開されません。
BioProject
自身のアカウントで登録済みのBioProjectを一つ選択します。 BioProject が未登録の場合は BioProject登録サイトでプロジェクトを登録します。
他のアカウントで登録された BioProject を参照したい場合は GEA チームに連絡します。
BioSample
自身のアカウントで登録済みの BioSample を選択します。 BioSample が未登録の場合は BioSample登録サイトでサンプルを登録します。
他のアカウントで登録された BioSample を参照したい場合は GEA チームに連絡します。
IDF
IDF(Investigation Description Format) の内容を入力します。
- Protocol: チェック済みのプロトコールは必須です
- Publication: 関連する文献を PubMed ID もしくは DOI で指定します。未公表の文献についてはIDが発行された後にお知らせください。
- Array Design: ArrayExpress/GEA にアレイデザインが登録されている場合は “A-XXXX-n” のアクセッション番号を記入します。アレイデザインが未登録の場合は GEA 登録用ディレクトリにアレイデザインファイルをアップロードして 新規アレイデザインを登録 します。
- Data File Type: マイクロアレイ実験の場合は生データと解析済みデータが必須です。サンプル毎の生データ・解析済みデータファイルの登録を強く推奨しますマイクロアレイ実験に登録可能なファイル形式。
SDRF
SDRF(Sample and Data Relationship Format) テンプレートファイルをダウンロードして必要な情報を追加します。
自動生成される内容
- 各Nameカラムと Source Name の Attribute カラム: 選択された BioSample の内容から自動生成されます
- SDRF行: 1行 1 BioSample で行が自動生成されます
- Protocol: IDF で作成されたプロトコールはSDRFの適切な個所にプロトコール ID (例ESUB000350_Protocol_1) として挿入されます
- Technology Type: マイクロアレイ登録の場合は “array assay” が固定入力されます
- Array Design REF: IDF で指定されたアレイデザインアクセッション番号、もしくは、アレイデザインファイル名が自動入力されます
<Required: fill in the content> タグを上書きして必須項目を入力します。
追加入力が必要な項目
- Material Type: controlled term から適切な語句を一つ記入します。
- total RNA
- polyA RNA
- cytoplasmic RNA
- nuclear RNA
- genomic DNA
- protein
- other
- Label: biotin、 Cy3 や Cy5 等の抽出分子を標識したラベル化合物名を記入します。
- Array Data FileとComment[Array Data File md5]: 生データファイルのファイル名と md5 チェックサム値 の組を記入します。
- Derived Array Data File と Comment[Derived Array Data File md5]: 解析済みデータファイルのファイル名と md5 チェックサム値 の組を記入します。
- データファイルと md5 チェックサム値の組は md5sum コマンドの結果を <GEA submission ID>.md5 (例 ESUB000001.md5) ファイルとしてデータファイルと一緒に提供することもできます(SDRFと .md5 ファイルの両方がある場合は .md5 の値が優先されます)。
- Factor Value[enter experiment factor name here]: 実験で研究している「要因」。 growthcondition、genotype、organism part 等の研究で解析している変数のことです。これらの変数の実際の値は “Factor Value[]” カラムに記載します。例:
- Factor Value[strain]
- AT76
- KU-2003
- KU-PI499262
内容を追加した SDRF を選択して Continue をクリックします。
md5 チェックサム値
GEA では md5 チェックサム値をファイル破損検知に利用しています。
データファイルが多い場合やコマンドライン操作に慣れている場合、SDRF に値を記入するのではなく、md5sum コマンドの結果を <GEA submission ID>.md5 (例 ESUB000001.md5) ファイルとしてデータファイルと一緒にアップロードして提供する方法が便利です。SDRFと .md5 ファイルの両方がある場合は .md5 の値が優先されます。
例 ESUB000001.md5 (チェックサム値とファイル名の間は半角スペース二個)
ed3d9b2adb5b29aa476b9d4164e208d5 raw1.txt
3d77463ca6f43416a6c1925b7704d304 raw2.txt
0e5be28700daa6d61ea3351921d6e578 processed1.txt
351fb1324feebe954405ca610e46ae44 processed2.txt
3d5749b63617da9002c7376deee8e0a3 array-design.txt
Overview と投稿
最後の Overview タブで IDF と SDRF ファイルをダウンロードして内容をチェックします。修正が必要な場合はタブを戻ってメタデータを修正します。
“Submit”ボタンをクリックして IDF と SDRF を投稿します。
検証処理
メタデータ投稿時に IDF と SDRF に記載されているデータファイルが対象の登録用ディレクトリにアップロードされていない場合、”Datafile is not uploaded” というエラーメッセージが表示され投稿が中断されます。
Validatorはvalidation ruleに従ってメタデータをチェックしエラーとワーニングメッセージを表示します。メタデータを投稿するためにはエラーを解消しておく必要があります。
アクセッション番号
完成した GEA experiment に対して GEA アクセッション番号が発行されます。
査読者用トークンを発行することでの非公開データへのアクセスを提供することができます。
更新
各データベースにおける更新方法
データベース | 更新方法 | Annotated sequence database | ウェブフォームから依頼 |
---|---|
Sequence Read Archive(DRA) | D-way にログインして登録者自身で更新 (配列データの追加や削除はウェブフォームから依頼) |
Genomic Expression Archive(GEA) | ウェブフォームから依頼 |
BioProject/BioSample | ウェブフォームから依頼 |
アーカイブされた experiment の削除
アーカイブされた Experiment を削除する場合は GEA チームに連絡します。
MD5 チェックサム値
MD5 チェックサム値の取得方法は「MD5 チェックサム値の取得」をご覧ください。