• (7/9 10:00-11:00) GEA/DRA/BP/BS システムリリースによるサービス停止のお知らせ
  • DDBJ リリース 138.0,DAD リリース 108.0 完成

Genomic Expression Archive

  • Home
  • Submission Overview
    • Submit microarray experiment
    • Submit sequencing experiment
    • Metadata
    • Data File
    • Validation
    • Single-cell submission guide
    • Spatial gene expression
    • Expression analysis using transcriptome as references
    • Example
    • Array Design
    • Data matrix
    • Reviewer Access
  • FAQ
  • Download
  • ホーム
  • gea
  • Metadata

Metadata

MAGE-TAB

MicroArray Gene Expression Tabular (MAGE-TAB) は機能ゲノミクスデータを構造化・標準化された方法で記載するためのコミュニティで開発された形式です。MAGE-TAB の仕様書

IDF,SDRF,ADFと生データファイル,解析済みデータとの関係
IDF,SDRF,ADFと生データファイル,解析済みデータとの関係

IDF

IDF (Investigation Description Format) ファイルは実験デザイン、プロトコール、文献情報や登録者情報といった実験全体を記述するファイルです。IDF の例

IDF 項目

IDF は項目と対応する値が組み合わされたタブ区切りテキストファイルです。例えば “Experiment Description” には Experiment のフリーテキストでの説明を記載します。一つ以上の値が許容されているフィールド、例えばプロトコール、登録者や experimental factor は一つの IDF ファイルで複数定義することができます(値はタブで区切ります)。一つの値しか持てないフィールドは以下に示してあります。

Investigation Title
研究全体に付けるタイトル。このタグは1つの値しか持てません。
Experimental Design
実験のデザイン。controlled term から該当するものを選びます。
Experimental Factor Name
実験の Experimental factor は実験の変数 (growth condition, genotype, organism part 等) です。Factor の値は SDRF の “Factor Value[]" カラムに記入します。GEA は SDRF の Factor value の名前を IDF にコピーします。
Experimental Factor Type
Experimental factor の type。GEA では Experimental Factor Name を Experimental Factor Type として使っています。
Person Last Name
登録者のラストネーム (公開されます)。
Person First Name
登録者のファーストネーム (公開されます)。
Person Mid Initials
登録者のミドルネーム (公開されます)。
Person Affiliation
登録者の所属する組織 (公開されます)。
Person Roles
Person の役割。GEA では “submitter” のみ使用可能です。
Public Release Date
データの初回公開日。日付は “YYYY-MM-DD” 形式で記入します (例: 2011-10-10)。このフィールドは1つの値しか持てません。
PubMed ID
登録データを引用している文献の PubMed ID。
Publication DOI
登録データを引用している文献の Digital Object Identifier (DOI)。PubMed ID がある場合は PubMed ID を記載します。
Experiment Description
実験をフリーテキストで記述します。このフィールドは1つの値しか持てません。説明文は「実験で何をしたか」を明確に説明します。この説明文はキュレータがデータをチェックする上で役に立ちます。
Protocol Name
プロトコールの名前。プロトコールは SDRF の “Protocol REF” カラムでプロトコールの一時的な ID (例 ESUB000350_Protocol_1) で参照されます。GEA は Experiment を跨ったプロトコールの参照をサポートしていません。
Protocol Type
プロトコールの種類。事前に定義されている type は以下になります。Microarray と Sequencing experiment で必須 protocol セットが異なります。
  • array scanning and feature extraction protocol
  • conversion protocol
  • dissection protocol
  • growth protocol
  • high throughput sequence alignment protocol
  • normalization data transformation protocol
  • nucleic acid extraction protocol
  • nucleic acid hybridization to array protocol
  • nucleic acid labeling protocol
  • nucleic acid library construction protocol
  • nucleic acid sequencing protocol
  • sample collection protocol
  • treatment protocol
Protocol Description
プロトコールをフリーテキストで記述します。このテキストはタブで区切られた1フィールド内に収めます。
SDRF File
IDF に随伴する SDRF ファイル名。GEA は自動的にファイル名を埋め込みます。
Comment[<user-defined tag>]
ユーザもしくはアーカイブが独自に定義するフィールド。GEA は以下の Comment タグを使っています。
  • Comment[GEAAccession]
  • Comment[AEExperimentType]
  • Comment[Number of channel]
  • Comment[Array Design REF]
  • Comment[BioProject]
  • Comment[Public Release Date]
  • Comment[Last Update Date]
  • Comment[AdditionalFile:TXT]

SDRF

SDRF (Sample and Data Relationship Format) ではサンプル属性、および、サンプル、アレイ、データファイル間の関係性を記述します。SDRF は実験の自然な流れを再現できるように構成されています。SDRF は用いられた大元の Source サンプルから始まり、最後はサンプルから得られたデータファイルで終わります。Single-channel のマイクロアレイ実験ではSDRF1行が1ハイブリダイゼーションに対応します。Two-channel マイクロアレイでは1行は1チャンネルに対応します。シークエンシング実験では1行は基本的に1生データファイル(Run、ペアードシークエンスを含む)に対応します。SDRF の例

SDRF の全体構造
SDRF の全体構造

SDRF セクション

Protocols
多くの場合実験における「処理(Treatment)」は IDF で定義された Protocol Name を参照する Protocol REF カラムで表されます。

アクセッション番号が発行される前の段階では IDF で定義されたプロトコールには一時的な ID (例 ESUB000001_Protocol_1) がアサインされ、SDRF からはこの ID で参照されます。

Protocol Name ESUB000500_Protocol_1 ESUB000500_Protocol_2
Protocol Type nucleic acid extraction protocol labelling protocol

SDRF は以下のようになります。

Protocol REF Protocol REF
OSUB000500_Protocol_2 OSUB000500_Protocol_3
Sources
Source は実験の出発材料です。このセクションは Source Name カラムで始まり、典型的にはいくつかの Characteristics カラムが続きます。

GEA の登録システムでは対応する BioSample の sample_name が Source Name、Extract Name、Labeled Extract Name と Assay Name に共通で使用されます。

Source Name Characteristics[organism] Characteristics[ecotype]
Arabidopsis control for heat stress_rep 1 Arabidopsis thaliana Col-0

追加で Source Name を注釈するカラム: Provider と Comment.

Extracts
Extract は実験で抽出された核酸のことです。
Source Name Protocol REF Extract Name Material Type
Arabidopsis control for heat stress_rep 1 OSUB000500_Protocol_2 Arabidopsis control for heat stress_rep 1 total RNA

Extracts を注釈するカラム: Characteristics[]、Material Type と Comment。

Labeled Extracts
Labeled Extracts アレイにハイブリダイズする前にラベルされた核酸のことです。マイクロアレイ実験ではどのサンプルにどのラベル(スキャナーのチャンネル)が対応するか記述する Label カラムが Labeled Extract Name カラムに付加されている必要があります。
Extract Name Material Type Protocol REF Labeled Extract Name Label
Arabidopsis control for heat stress_rep 1 total RNA OSUB000500_Protocol_3 Arabidopsis control for heat stress_rep 1 biotin

Labeled Extract を注釈するカラム: Characteristics[]、Material Type と Comment。

Assays
Labeled extract のアレイへのハイブリダイゼーション、もしくは、ライブラリーのシークエンシングは SDRFにおいて「材料(material)」と「データ(data)」セクションをつなぐ要となるステップです。マイクロアレイ実験ではアレイデザインを示すArray Design REF カラムが Assay Name に付加されている必要があります。
Labeled Extract Name Label Assay Name Technology Type Array Design REF
Arabidopsis control for heat stress_rep 1 biotin Arabidopsis control for heat stress_rep 1 array assay A-AFFY-2

Assay Name カラムを注釈する Comment カラムを含めることができます。Assay Name カラムの値は Data Matrix ファイル中でデータカラムと個々のアッセイをリンクするのに使われることがあることに注意が必要です。

Raw Data Files
生データファイルは Assay Name カラムに続く Array Data File カラムにリストする必要があります。
Assay Name Technology Type Array Design REF Array Data File
Arabidopsis control for heat stress_rep 1 array assay A-AFFY-2 Arabidopsis_control_rep_1.CEL

生データファイルに関する情報を補足するのに Comment カラムを使うことができます。

Processed Data Files
マイクロアレイとシークエンシング実験の両方において生データから派生した解析済みデータファイルは Derived Array DataFileカラムにリストします。アッセイ毎に一つの解析済みデータファイルがある場合にこのカラムを使います。複数アッセイからのデータが含まれている場合は解析済みデータファイルを Data Matrix format に変換しこのカラムではなく Derived Array Data Matrix File カラムにファイル名を記載します。
Assay Name Technology Type Array Design REF Array Data File Derived Array Data File
Arabidopsis control for heat stress_rep 1 array assay A-AFFY-2 Arabidopsis_control_rep_1.CEL Arabidopsis_control_rep_1.processed.txt
Factor Values
Factor valueは実験で解析対象になっている変数のことです。例えば異なる温度(熱ストレス)が培養細胞に与える影響を調べている場合、単位を示す “Unit” カラムが付いた “temparature” が Factor value になります。
Source Name Comment[description] Assay Name Factor Value[temparature] Unit[temperature unit]
Arabidopsis control for heat stress rep 1 Arabidopsis control for heat stress, biological replicate 1 Arabidopsis control for heat stress rep 1 22 degree_C
Arabidopsis heat stress rep 1 Arabidopsis heat stress, biological replicate 1 Arabidopsis heat stress rep 1 37 degree_C

Factor value は通常 SDRF の他のカラムと重複します。”Factor Value” カラムは Characteristics[] カラムと重複することが多いです。

Factor Value カラムは SDRF の最後(最も右)に配置する必要があります。

GEA は IDF で変数を “Experimental Factor Name” と Type(通常 Name と同じ)として定義します。

Experimental Factor Name temperature
Experimental Factor Type temperature

SDRF カラム

Source Name
MAGE-TAB で identifier として使われます。このカラムには Source material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Source Name” を注釈するのに使えます。
  • Characteristics[]
  • Provider
  • Comment[]
Sample Name
MAGE-TAB で identifier として使われます。このカラムには Sample material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Sample Name” を注釈するのに使えます。
  • Characteristics[]
  • Comment[]
Extract Name
MAGE-TAB で identifier として使われます。このカラムには Extract material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Extract Name” を注釈するのに使えます。
  • Material Type
  • Comment[]
Labeled Extract Name
MAGE-TAB で identifier として使われます。このカラムには Labeled Extract material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Labeled Extract Name” を注釈するのに使えます。
  • Label (required for array submissions)
  • Comment[]
Assay Name
MAGE-TAB で identifier として使われます。このカラムには Assay に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Assay Name” を注釈するのに使えます。
  • Array Design REF (required for array submissions)
  • Technology Type (“array assay” for microarray and “sequencing assay” for sequencing experiment)
  • Comment[]

All “Assay Name” columns must be followed by a “Technology Type” column.

Scan Name
MAGE-TAB で identifier として使われます。このカラムには Scan イベントに対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Scan Name” を注釈するのに使えます。
  • Comment[]
Normalization Name
MAGE-TAB で identifier として使われます。このカラムには Normalization イベントに対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Normalization Name” を注釈するのに使えます。
  • Comment[]
Array Data File
このカラムは生データファイルを SDRF 1行について1ファイルリストして個々のアッセイとデータファイルを結びつけるのに使います。以下のカラムが “Array Data File” カラムを注釈するのに使えます。
  • Comment[]
Derived Array Data File
このカラムはマイクロアレイとシークエンシング実験において解析済みデータファイルを SDRF 1行について1ファイルリストして個々のアッセイと解析済みデータファイルを結びつけるのに使います。以下のカラムが “Derived Array Data File” カラムを注釈するのに使えます。
  • Comment[]
Array Data Matrix File
このカラムではマイクロアレイとシークエンシング実験において複数アッセイからのデータを含む生データファイルを記載します。データとアッセイは Data Matrix 形式ファイル中で対応付けられます。以下のカラムが “Array Data Matrix File” カラムを注釈するのに使えます。
  • Comment[]
Derived Array Data Matrix File
このカラムではマイクロアレイとシークエンシング実験において複数アッセイからのデータを含む解析済みデータファイルを記載します。データとアッセイ(もしくは Scan や Normalization) は Data Matrix 形式ファイル中で対応付けられます。以下のカラムが “Derived Array Data Matrix File” カラムを注釈するのに使えます。
  • Comment[]
Array Design REF
このカラムはアッセイで使われたアレイデザインを参照します。GEA 登録では ArrayExpress/GEA アレイデザインアクセッション番号(例”A-AFFY-2”)、もしくは、番号が無い場合はアレイデザインファイル名を記載します。アレイデザインアクセッション番号は ArrayExpress array design search page で検索できます。以下のカラムが “Array Design REF” カラムを注釈するのに使えます。
  • Comment[]
Protocol REF
このカラムは IDF で定義された Protocol Names への参照を記載します。アクセッション番号発行前はプロトコールは “ESUB000500_Protocol_1” のような一時的な ID で参照されます。アクセッション番号発行後、この ID は “P-GEAD-100” のようなプロトコールアクセッション番号で置換されます。以下のカラムが “Protocol REF” カラムを注釈するのに使えます。
  • Parameter Value[]
  • Performer
  • Date
  • Comment[]
Characteristics[<category term>]
Controlled vocabulary term もしくは測定値を記載します。Source Name、Sample Name、Extract Name もしくは Labeled Extract Name の属性カラムとして使われます。ヘッダー中に示されるカテゴリーに従った属性値を記入して material を記述します。例えば “Characteristics[organism]” は ”Homo sapiens” 等の生物名を含みます。デフォルトでは登録者が値を定義しますが、外部オントロジーの値 (例えば organism name に対する NCBI Taxonomy)や計測値 (Unit[] カラムで単位を掲示) を記入することもあります。以下のカラムが “Characteristics[]" カラムを注釈するのに使えます。
  • Term Source REF
  • Unit[]
Provider
Source Name を注釈するカラムとして使えます。Source が由来する組織名や提供者名を記載します。
Material Type
Controlled vocabulary term。Source Name、Sample Name、Extract Name もしくは Labeled Extract Name を注釈するカラムとして使えます。このカラムには以下の選択肢から各 material を記述する語句を記入します。
  • total RNA
  • polyA RNA
  • cytoplasmic RNA
  • nuclear RNA
  • genomic DNA
  • protein
  • other
Label
Controlled vocabulary term. Labeled Extract Name を注釈するカラムとして使えます。抽出核酸を標識して Labeled Extract を生成したラベル化合物名を記入します。例: Cy3、Cy5、biotin、alexa_546。 以下のカラムが “Label” カラムを注釈するのに使えます。
  • Term Source REF
Technology Type
Controlled vocabulary term。 Assay Name カラムを注釈するカラムとして使います。GEA はマイクロアレイ実験に対して “array assay”、シークエンシング実験に対して “sequencing assay” を自動で埋め込みます。以下のカラムが “Technology Type” カラムを注釈するのに使えます。
  • Term Source REF
Factor Value[<experiment factor name>]
Controlled vocabulary term もしくは計測値。このカラムでは SDRF の各行の experimental factor values (変数) を記載します。Factor value の変数名をヘッダー中に Experimental Factor Name として定義します。登録システムが提供する SDRF テンプレートでは “Factor Value[enter experiment factor name here]” となっているので “enter experiment factor name here” を上書きして変数名を記入します。

Example SDRF:

Factor Value[tissue]
gall bladder
kidney
liver
intestine
pancreas

上の例では tissue という変数の値が記載されています。さらに詳細に値を定義するために任意の形式として “Factor Value[]()” を用いることができます。例 “Factor Value[growthconditionEF](Nutrients)”。

変数の組み合わせが解析された場合、一つ以上の Factor Value を記述します。SDRF の例:

Factor Value[compound] Factor Value[dose] Unit[molar mass unit]
none    
potassium cyanide 25 micromolar
potassium cyanide 35 micromolar
potassium cyanide 50 micromolar

Factor name は組になる IDF で定義します(GEA は SDRF 中の Factor name を IDF にコピーします):

Experimental Factor Name tissue
Experimental Factor Type tissue
Performer
Protocol REF に続く注釈カラムとして使うことができます。プロトコールが実施された組織名もしくは研究者名を記載します。
Date
Protocol REF に続く注釈カラムとして使うことができます。プロトコールの実施日(とあれば時間)を “YYYY-MM-DD” 形式で記載します。
Parameter Value[<protocol parameter>]
Protocol REF に続く注釈カラムとして使うことができます。このカラムはカラムヘッダー中に含まれるプロトコールのパラメータを記述するのに使うことができます。以下のカラムが “Parameter Value” カラムを注釈するのに使えます。
  • Unit[]
  • Term Source REF
  • Comment[]

例えば “Array Hybridization” という名のプロトコールが Protocol Parameters “hyb temp” と共に IDF で定義されている場合、以下のような記載をすることができます。

Protocol REF Parameter Value[hyb temp] Unit[temperature unit]
Array Hybridization 55 degree celsius
Unit[<unit category>]
Controlled vocabulary term。Characteristics[]、Factor Value[] もしくは Parameter Value[] に続く注釈カラムとして使うことができます。このカラムは先行するカラムの単位を示すために使います。単位の種類はカラムヘッダー中に “Unit[volume unit]” のように示します。種類は EFO の Unit サブクラスから適切なものを記載します。以下のカラムが “Unit[]" カラムを注釈するのに使えます。
  • Term Source REF

このケースにおいて Term Source REF は Unit の値が由来するオントロジーを示すのに使います。

Description
Source Name、Sample Name、Extract Name もしくは Labeled Extract Name を注釈するカラムとして使うことができます。対応する material に対するフリーテキストでの説明を記載します。できるだけこのカラムは使わずに Characteristics[] カラムを使って構造的に material を記述します。
Term Source REF
どのような controlled vocabulary カラム (例 Characteristics[])、もしくは、外部エンティティを参照できるカラム (例 Protocol REF) に対しても使うことができます。このカラムは先行するカラム中の値が由来する IDF で定義されたオントロジーやデータベースを参照することができます。以下のカラムが “Term Source REF” カラムを注釈するのに使えます。
  • Term Accession Number
Term Accession Number
Term Source REF カラムを注釈するカラムとして使うことができます。オントロジーやデータベース中の記入された値に対するアクセッション番号を記入します。例:
Source Name Characteristics[disease] Term Source REF Term Accession Number
Sample 1 acute lymphoblastic leukemia EFO EFO_0000220

(この例は EFO Term Source が SDRF とペアになっている IDF で定義されていることを前提にしています)
GEA では ArrayExpressのように登録時点で構造化してオントロジーを適用することはしていません。

Comment[<comment name>]
このカラムは node と edge カラムを注釈するために使うことができます。このカラムは拡張性を持たすためにあり、生物学的に意味のある事柄を記載するために用いられることを意図していません。カラムヘッダー中に値の種類に対する名前を記載する必要があります。