Genomic Expression Archive
Metadata
MAGE-TAB
MicroArray Gene Expression Tabular (MAGE-TAB) は機能ゲノミクスデータを構造化・標準化された方法で表現するための研究者コミュニティで開発、採用された形式です。MAGE-TAB はデータの収集とアノテーションに加え、ArrayExpress や GEA といったデータベース間でデータを交換する用途にも使えるように設計されています。MAGE-TAB の仕様書
IDF
IDF (Investigation Description Format) ファイルは実験デザイン、プロトコール、文献情報や登録者情報といった実験全体を記述するファイルです。IDF の例
IDF 項目
IDF は項目と対応する値が組み合わされたタブ区切りテキストファイルです。例えば “Experiment Description” には Experiment のフリーテキストでの説明を記載します。一つ以上の値が許容されているフィールド、例えばプロトコール、登録者や experimental factor は一つの IDF ファイルで複数定義することができます(値はタブで区切ります)。一つの値しか持てないフィールドは以下に示してあります。
- Investigation Title
- 研究全体に付けるタイトル。このタグは1つの値しか持てません。
- Experimental Design
- 実験のデザイン。controlled term から該当するものを選びます。
- Experimental Factor Name
- 実験の Experimental factor は実験の変数 (growth condition, genotype, organism part 等) です。Factor の値は SDRF の “Factor Value[<factor name>]” カラムに記入します。GEA は SDRF の Factor value の名前を IDF にコピーします。
- Experimental Factor Type
- Experimental factor の type。GEA では Experimental Factor Name を Experimental Factor Type として使っています。
- Person Last Name
- 登録者のラストネーム (公開されます)。
- Person First Name
- 登録者のファーストネーム (公開されます)。
- Person Mid Initials
- 登録者のミドルネーム (公開されます)。
- Person Affiliation
- 登録者の所属する組織 (公開されます)。
- Person Roles
- Person の役割。GEA では “submitter” のみ使用可能です。
- Public Release Date
- データの初回公開日。日付は “YYYY-MM-DD” 形式で記入します (例: 2011-10-10)。このフィールドは1つの値しか持てません。
- PubMed ID
- 登録データを引用している文献の PubMed ID。
- Publication DOI
- 登録データを引用している文献の Digital Object Identifier (DOI)。PubMed ID がある場合は PubMed ID を記載します。
- Experiment Description
- 実験をフリーテキストで記述します。このフィールドは1つの値しか持てません。説明文は「実験で何をしたか」を明確に説明します。この説明文はキュレータがデータをチェックする上で役に立ちます。
- Protocol Name
- プロトコールの名前。プロトコールは SDRF の “Protocol REF” カラムでプロトコールの一時的な ID (例 ESUB000350_Protocol_1) もしくはアクセッション番号 (例 P-GEAD-100) で参照されます。GEA は Experiment を跨ったプロトコールの参照をサポートしていません。
- Protocol Type
- プロトコールの種類。事前に定義されている type は以下になります。Microarray と Sequencing experiment で必須 protocol セットが異なります。
- array scanning and feature extraction protocol
- conversion protocol
- dissection protocol
- growth protocol
- high throughput sequence alignment protocol
- normalization data transformation protocol
- nucleic acid extraction protocol
- nucleic acid hybridization to array protocol
- nucleic acid labeling protocol
- nucleic acid library construction protocol
- nucleic acid sequencing protocol
- sample collection protocol
- treatment protocol
- Protocol Description
- プロトコールをフリーテキストで記述します。このテキストはタブで区切られた1フィールド内に収めます。
- SDRF File
- IDF に随伴する SDRF ファイル名。GEA は自動的にファイル名を埋め込みます。
- Comment[<user-defined tag>]
- ユーザもしくはアーカイブが独自に定義するフィールド。GEA は以下の Comment タグを使っています。
- Comment[GEAAccession]
- Comment[AEExperimentType]
- Comment[Number of channel]
- Comment[Array Design REF]
- Comment[BioProject]
- Comment[Public Release Date]
- Comment[Last Update Date]
- Comment[AdditionalFile:TXT]
SDRF
SDRF (Sample and Data Relationship Format) サンプル属性及びサンプル、アレイ、データファイル間の関係性を記述します。SDRF は機能ゲノミクス実験の自然な流れを再現できるように構成されています。SDRF は用いられた大元の Source サンプルから始まり、最後はサンプルから得られたデータファイルで終わります。Single-channel のマイクロアレイ実験ではSDRF1行が1ハイブリダイゼーションに対応します。Two-channel マイクロアレイでは1行は1チャンネルに対応します。シークエンシング実験では1行は基本的に1生データファイル(Run、ペアードシークエンスを含む)に対応します。SDRF の例
SDRF セクション
- Protocols
- 多くの場合実験における「処理(Treatment)」は IDF で定義された Protocol Name を参照する Protocol REF カラムで表されます。
アクセッション番号が発行される前の段階では IDF で定義されたプロトコールには一時的な ID (例 ESUB000001_Protocol_1) がアサインされ、SDRF からはこの ID で参照されます。アクセッション番号発行後、これらのプロトコールはアクセッション番号 (P-GEAD-n) で参照されます。
Protocol Name | ESUB000500_Protocol_1 | ESUB000500_Protocol_2 |
Protocol Type | nucleic acid extraction protocol | labelling protocol |
SDRF は以下のようになります。
Protocol REF | Protocol REF |
OSUB000500_Protocol_2 | OSUB000500_Protocol_3 |
- Sources
- Source は実験の出発材料です。このセクションは Source Name カラムで始まり、典型的にはいくつかの Characteristics カラムが続きます。
GEA の登録システムでは対応する BioSample の sample_name が Source Name、Extract Name、Labeled Extract Name と Assay Name に共通で使用されます。
Source Name | Characteristics[organism] | Characteristics[ecotype] |
Arabidopsis control for heat stress_rep 1 | Arabidopsis thaliana | Col-0 |
追加で Source Name を注釈するカラム: Provider と Comment.
- Extracts
- Extract は実験で抽出された核酸のことです。
Source Name | Protocol REF | Extract Name | Material Type |
Arabidopsis control for heat stress_rep 1 | OSUB000500_Protocol_2 | Arabidopsis control for heat stress_rep 1 | total RNA |
Extracts を注釈するカラム: Characteristics[]、Material Type と Comment。
- Labeled Extracts
- Labeled Extracts アレイにハイブリダイズする前にラベルされた核酸のことです。マイクロアレイ実験ではどのサンプルにどのラベル(スキャナーのチャンネル)が対応するか記述する Label カラムが Labeled Extract Name カラムに付加されている必要があります。
Extract Name | Material Type | Protocol REF | Labeled Extract Name | Label |
Arabidopsis control for heat stress_rep 1 | total RNA | OSUB000500_Protocol_3 | Arabidopsis control for heat stress_rep 1 | biotin |
Labeled Extract を注釈するカラム: Characteristics[]、Material Type と Comment。
- Assays
- Labeled extract のアレイへのハイブリダイゼーション、もしくは、ライブラリーのシークエンシングは SDRFにおいて「材料(material)」と「データ(data)」セクションをつなぐ要となるステップです。マイクロアレイ実験ではアレイデザインを示すArray Design REF カラムが Assay Name に付加されている必要があります。
Labeled Extract Name | Label | Assay Name | Technology Type | Array Design REF |
Arabidopsis control for heat stress_rep 1 | biotin | Arabidopsis control for heat stress_rep 1 | array assay | A-AFFY-2 |
Assay Name カラムを注釈する Comment カラムを含めることができます。Assay Name カラムの値は Data Matrix ファイル中でデータカラムと個々のアッセイをリンクするのに使われることがあることに注意が必要です。
- Raw Data Files
- 生データファイルは Assay Name カラムに続く Array Data File カラムにリストする必要があります。
Assay Name | Technology Type | Array Design REF | Array Data File |
Arabidopsis control for heat stress_rep 1 | array assay | A-AFFY-2 | Arabidopsis_control_rep_1.CEL |
生データファイルに関する情報を補足するのに Comment カラムを使うことができます。
- Processed Data Files
- マイクロアレイとシークエンシング実験の両方において生データから派生した解析済みデータファイルは Derived Array DataFileカラムにリストします。アッセイ毎に一つの解析済みデータファイルがある場合にこのカラムを使います。複数アッセイからのデータが含まれている場合は解析済みデータファイルを Data Matrix format に変換しこのカラムではなく Derived Array Data Matrix File カラムにファイル名を記載します。
Assay Name | Technology Type | Array Design REF | Array Data File | Derived Array Data File |
Arabidopsis control for heat stress_rep 1 | array assay | A-AFFY-2 | Arabidopsis_control_rep_1.CEL | Arabidopsis_control_rep_1.processed.txt |
- Factor Values
- Factor valueは実験で解析対象になっている変数のことです。例えば異なる温度(熱ストレス)が培養細胞に与える影響を調べている場合、単位を示す “Unit” カラムが付いた “temparature” が Factor value になります。
Source Name | Comment[description] | Assay Name | Factor Value[temparature] | Unit[temperature unit] |
Arabidopsis control for heat stress rep 1 | Arabidopsis control for heat stress, biological replicate 1 | Arabidopsis control for heat stress rep 1 | 22 | degree_C |
Arabidopsis heat stress rep 1 | Arabidopsis heat stress, biological replicate 1 | Arabidopsis heat stress rep 1 | 37 | degree_C |
Factor value は通常 SDRF の他のカラムと重複します。”Factor Value” カラムは Characteristics[] カラムと重複することが多いです。
Factor Value カラムは SDRF の最後(最も右)に配置する必要があります。
GEA は IDF で変数を “Experimental Factor Name” と Type(通常 Name と同じ)として定義します。
Experimental Factor Name | temperature |
Experimental Factor Type | temperature |
SDRF カラム
- Source Name
- MAGE-TAB で identifier として使われます。このカラムには Source material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Source Name” を注釈するのに使えます。
- Sample Name
- MAGE-TAB で identifier として使われます。このカラムには Sample material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Sample Name” を注釈するのに使えます。
- Extract Name
- MAGE-TAB で identifier として使われます。このカラムには Extract material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Extract Name” を注釈するのに使えます。
- Labeled Extract Name
- MAGE-TAB で identifier として使われます。このカラムには Labeled Extract material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Labeled Extract Name” を注釈するのに使えます。
- Assay Name
- MAGE-TAB で identifier として使われます。このカラムには Assay に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Assay Name” を注釈するのに使えます。
- Array Design REF (required for array submissions)
- Technology Type (“array assay” for microarray and “sequencing assay” for sequencing experiment)
- Comment[]
All “Assay Name” columns must be followed by a “Technology Type” column.
- Scan Name
- MAGE-TAB で identifier として使われます。このカラムには Scan イベントに対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Scan Name” を注釈するのに使えます。
- Normalization Name
- MAGE-TAB で identifier として使われます。このカラムには Normalization イベントに対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが “Normalization Name” を注釈するのに使えます。
- Array Data File
- このカラムは生データファイルを SDRF 1行について1ファイルリストして個々のアッセイとデータファイルを結びつけるのに使います。以下のカラムが “Array Data File” カラムを注釈するのに使えます。
- Derived Array Data File
- このカラムはマイクロアレイとシークエンシング実験において解析済みデータファイルを SDRF 1行について1ファイルリストして個々のアッセイと解析済みデータファイルを結びつけるのに使います。以下のカラムが “Derived Array Data File” カラムを注釈するのに使えます。
- Array Data Matrix File
- このカラムではマイクロアレイとシークエンシング実験において複数アッセイからのデータを含む生データファイルを記載します。データとアッセイは Data Matrix 形式ファイル中で対応付けられます。以下のカラムが “Array Data Matrix File” カラムを注釈するのに使えます。
- Derived Array Data Matrix File
- このカラムではマイクロアレイとシークエンシング実験において複数アッセイからのデータを含む解析済みデータファイルを記載します。データとアッセイ(もしくは Scan や Normalization) は Data Matrix 形式ファイル中で対応付けられます。以下のカラムが “Derived Array Data Matrix File” カラムを注釈するのに使えます。
- Array Design REF
- このカラムはアッセイで使われたアレイデザインを参照します。GEA 登録では ArrayExpress/GEA アレイデザインアクセッション番号(例”A-AFFY-2”)、もしくは、番号が無い場合はアレイデザインファイル名を記載します。アレイデザインアクセッション番号は ArrayExpress array design search page で検索できます。以下のカラムが “Array Design REF” カラムを注釈するのに使えます。
- Protocol REF
- このカラムは IDF で定義された Protocol Names への参照を記載します。アクセッション番号発行前はプロトコールは “ESUB000500_Protocol_1” のような一時的な ID で参照されます。アクセッション番号発行後、この ID は “P-GEAD-100” のようなプロトコールアクセッション番号で置換されます。以下のカラムが “Protocol REF” カラムを注釈するのに使えます。
- Characteristics[<category term>]
- Controlled vocabulary term もしくは測定値を記載します。Source Name、Sample Name、Extract Name もしくは Labeled Extract Name の属性カラムとして使われます。ヘッダー中に示されるカテゴリーに従った属性値を記入して material を記述します。例えば “Characteristics[organism]” は ”Homo sapiens” 等の生物名を含みます。デフォルトでは登録者が値を定義しますが、外部オントロジーの値 (例えば organism name に対する NCBI Taxonomy)や計測値 (Unit[] カラムで単位を掲示) を記入することもあります。以下のカラムが “Characteristics[
]" カラムを注釈するのに使えます。 - Provider
- Source Name を注釈するカラムとして使えます。Source が由来する組織名や提供者名を記載します。
- Material Type
- Controlled vocabulary term。Source Name、Sample Name、Extract Name もしくは Labeled Extract Name を注釈するカラムとして使えます。このカラムには以下の選択肢から各 material を記述する語句を記入します。
- total RNA
- polyA RNA
- cytoplasmic RNA
- nuclear RNA
- genomic DNA
- protein
- other
- Label
- Controlled vocabulary term. Labeled Extract Name を注釈するカラムとして使えます。抽出核酸を標識して Labeled Extract を生成したラベル化合物名を記入します。例: Cy3、Cy5、biotin、alexa_546。 以下のカラムが “Label” カラムを注釈するのに使えます。
- Technology Type
- Controlled vocabulary term。 Assay Name カラムを注釈するカラムとして使います。GEA はマイクロアレイ実験に対して “array assay”、シークエンシング実験に対して “sequencing assay” を自動で埋め込みます。以下のカラムが “Technology Type” カラムを注釈するのに使えます。
- Factor Value[<experiment factor name>]
- Controlled vocabulary term もしくは計測値。このカラムでは SDRF の各行の experimental factor values (変数) を記載します。Factor value の変数名をヘッダー中に Experimental Factor Name として定義します。
Example SDRF:
Factor Value[tissue] |
gall bladder |
kidney |
liver |
intestine |
pancreas |
上の例では tissue という変数の値が記載されています。さらに詳細に値を定義するために任意の形式として “Factor Value[]()” を用いることができます。例 “Factor Value[growthconditionEF](Nutrients)”。
変数の組み合わせが解析された場合、一つ以上の Factor Value を記述します。SDRF の例:
Factor Value[compound] | Factor Value[dose] | Unit[molar mass unit] |
none | ||
potassium cyanide | 25 | micromolar |
potassium cyanide | 35 | micromolar |
potassium cyanide | 50 | micromolar |
Factor name は組になる IDF で定義します(GEA は SDRF 中の Factor name を IDF にコピーします):
Experimental Factor Name | tissue |
Experimental Factor Type | tissue |
- Performer
- Protocol REF に続く注釈カラムとして使うことができます。プロトコールが実施された組織名もしくは研究者名を記載します。
- Date
- Protocol REF に続く注釈カラムとして使うことができます。プロトコールの実施日(とあれば時間)を “YYYY-MM-DD” 形式で記載します。
- Parameter Value[<protocol parameter>]
- Protocol REF に続く注釈カラムとして使うことができます。このカラムはカラムヘッダー中に含まれるプロトコールのパラメータを記述するのに使うことができます。以下のカラムが “Parameter Value” カラムを注釈するのに使えます。
例えば “Array Hybridization” という名のプロトコールが Protocol Parameters “hyb temp” と共に IDF で定義されている場合、以下のような記載をすることができます。
Protocol REF | Parameter Value[hyb temp] | Unit[temperature unit] |
Array Hybridization | 55 | degree celsius |
- Unit[<unit category>]
- Controlled vocabulary term。Characteristics[]、Factor Value[] もしくは Parameter Value[] に続く注釈カラムとして使うことができます。このカラムは先行するカラムの単位を示すために使います。単位の種類はカラムヘッダー中に “Unit[volume unit]” のように示します。種類は EFO の Unit サブクラスから適切なものを記載します。以下のカラムが “Unit[<unit category>]” カラムを注釈するのに使えます。
このケースにおいて Term Source REF は Unit の値が由来するオントロジーを示すのに使います。
- Description
- Source Name、Sample Name、Extract Name もしくは Labeled Extract Name を注釈するカラムとして使うことができます。対応する material に対するフリーテキストでの説明を記載します。できるだけこのカラムは使わずに Characteristics[] カラムを使って構造的に material を記述します。
- Term Source REF
- どのような controlled vocabulary カラム (例 Characteristics[])、もしくは、外部エンティティを参照できるカラム (例 Protocol REF) に対しても使うことができます。このカラムは先行するカラム中の値が由来する IDF で定義されたオントロジーやデータベースを参照することができます。以下のカラムが “Term Source REF” カラムを注釈するのに使えます。GEA では ArrayExpress のように登録時点で構造化してオントロジーを適用することはしていません。
- Term Accession Number
- Term Source REF カラムを注釈するカラムとして使うことができます。オントロジーやデータベース中の記入された値に対するアクセッション番号を記入します。例:
Source Name | Characteristics[disease] | Term Source REF | Term Accession Number |
Sample 1 | acute lymphoblastic leukemia | EFO | EFO_0000220 |
(この例は EFO Term Source が SDRF とペアになっている IDF で定義されていることを前提にしています)
GEA では ArrayExpressのように登録時点で構造化してオントロジーを適用することはしていません。
- Comment[<comment name>]
- このカラムは node と edge カラムを注釈するために使うことができます。このカラムは拡張性を持たすためにあり、生物学的に意味のある事柄を記載するために用いられることを意図していません。カラムヘッダー中に値の種類に対する名前を記載する必要があります。