Metadata

MAGE-TAB

MicroArray Gene Expression Tabular (MAGE-TAB) は機能ゲノミクスデータを構造化・標準化された方法で表現するための研究者コミュニティで開発、採用された形式です。MAGE-TAB はデータの収集とアノテーションに加え、ArrayExpress や GEA といったデータベース間でデータを交換する用途にも使えるように設計されています。MAGE-TAB の仕様書

IDF,SDRF,ADF と生データファイル,解析処理されたデータファイル間の関係

IDF

IDF (Investigation Description Format) ファイルは実験デザイン、プロトコール、文献情報や登録者情報といった実験全体を記述するファイルです。

IDF 例

IDF の例

Comment[GEAAccession]E-GEAD-369
MAGE-TAB Version1.1
Investigation TitleTranscriptional profiling of Arabidopsis leaves exposed to elevated temperature
Experiment DescriptionWe investigated genome-wide ... biological replicates were analyzed.
Experimental Designstimulus or stress design
Experimental Factor Nametemperature
Experimental Factor Typetemperature
Person Last NameTest
Person First NameTarou
Person AffiliationDDBJ Center, National Institute of Genetics
Person Rolessubmitter
Public Release Date2018-06-22
PubMed ID29040613
Protocol NameP-GEAD-535...
Protocol Typesample collection protocol...
Protocol DescriptionPlants were sown on GM medium ... 22 degrees celsius....
SDRF FileE-GEAD-369.sdrf.txt
Comment[Number of channel]single-channel
Comment[Array Design REF]A-AFFY-2
Comment[AEExperimentType]transcription profiling by array
Comment[BioProject]PRJDB3647
Comment[Public Release Date]2018-06-22
Comment[Last Update Date]2018-06-22

IDF タグ

IDF はタグと対応する値が組み合わされたタブ区切りテキストファイルです。例えば "Experiment Description" には Experiment のフリーテキストでの説明を記載します。一つ以上の値が許容されているフィールド、例えばプロトコール、登録者や experimental factor は一つの IDF ファイルで複数定義することができます(値はタブで区切ります)。一つの値しか持てないフィールドは以下に示してあります。

Investigation Title

研究全体に付けるタイトル。このタグは1つの値しか持てません。

Experimental Design

実験のデザイン。controlled term から該当するものを選びます。

Experimental Factor Name

実験の Experimental factor は実験の変数 (growth condition, genotype, organism part 等) です。Factor の値は SDRF の "Factor Value[<factor name>]" カラムに記入します。GEA は SDRF の Factor value の名前を IDF にコピーします。

Experimental Factor Type

Experimental factor の type。GEA では Experimental Factor Name を Experimental Factor Type として使っています。

Person Last Name

登録者のラストネーム (公開されます)。

Person First Name

登録者のファーストネーム (公開されます)。

登録者のミドルネーム (公開されます)。
Person Affiliation

登録者の所属する組織 (公開されます)。

Person Roles

Person の役割。GEA では "submitter" のみ使用可能です。

Public Release Date

データの初回公開日。日付は "YYYY-MM-DD" 形式で記入します (例: 2011-10-10)。このフィールドは1つの値しか持てません。

PubMed ID

登録データを引用している文献の PubMed ID。

Publication DOI

登録データを引用している文献の Digital Object Identifier (DOI)。PubMed ID がある場合は PubMed ID を記載します。

Experiment Description

実験をフリーテキストで記述します。このフィールドは1つの値しか持てません。説明文は「実験で何をしたか」を明確に説明します。この説明文はキュレータがデータをチェックする上で役に立ちます。

Protocol Name

プロトコールの名前。プロトコールは SDRF の "Protocol REF" カラムでプロトコールの一時的な ID (例 ESUB000350_Protocol_1) もしくはアクセッション番号 (例 P-GEAD-100) で参照されます。GEA は Experiment を跨ったプロトコールの参照をサポートしていません。

Protocol Type

プロトコールの種類。事前に定義されている type は以下になります。Microarray と Sequencing experiment で必須 protocol セットが異なります。

  • array scanning and feature extraction protocol
  • conversion protocol
  • dissection protocol
  • growth protocol
  • high throughput sequence alignment protocol
  • normalization data transformation protocol
  • nucleic acid extraction protocol
  • nucleic acid hybridization to array protocol
  • nucleic acid labeling protocol
  • nucleic acid library construction protocol
  • nucleic acid sequencing protocol
  • sample collection protocol
  • treatment protocol

Protocol Description

プロトコールをフリーテキストで記述します。このテキストはタブで区切られた1フィールド内に収めます。

SDRF File

IDF に随伴する SDRF ファイル名。GEA は自動的にファイル名を埋め込みます。

Comment[<user-defined tag>]

ユーザもしくはアーカイブが独自に定義するフィールド。GEA は以下の Comment タグを使っています。

  • Comment[GEAAccession]
  • Comment[AEExperimentType]
  • Comment[Number of channel]
  • Comment[Array Design REF]
  • Comment[BioProject]
  • Comment[Public Release Date]
  • Comment[Last Update Date]
  • Comment[AdditionalFile:TXT]

SDRF

SDRF (Sample and Data Relationship Format) サンプル属性及びサンプル、アレイ、データファイル間の関係性を記述します。SDRF は機能ゲノミクス実験の自然な流れを再現できるように構成されています。SDRF は用いられた大元の Source サンプルから始まり、最後はサンプルから得られたデータファイルで終わります。Single-channel のマイクロアレイ実験ではSDRF1行が1ハイブリダイゼーションに対応します。Two-channel マイクロアレイでは1行は1チャンネルに対応します。シークエンシング実験では1行は基本的に1生データファイル(Run、ペアードシークエンスを含む)に対応します。

SDRF の全体構造

SDRF セクション

Protocols

多くの場合実験における「処理(Treatment)」は IDF で定義された Protocol Name を参照する Protocol REF カラムで表されます。

アクセッション番号が発行される前の段階では IDF で定義されたプロトコールには一時的な ID (例 ESUB000001_Protocol_1) がアサインされ、SDRF からはこの ID で参照されます。アクセッション番号発行後、これらのプロトコールはアクセッション番号 (P-GEAD-n) で参照されます。

Protocol Name ESUB000500_Protocol_1 ESUB000500_Protocol_2
Protocol Type nucleic acid extraction protocol labelling protocol

SDRF は以下のようになります。

Protocol REF Protocol REF
OSUB000500_Protocol_2 OSUB000500_Protocol_3
Sources

Source は実験の出発材料です。このセクションは Source Name カラムで始まり、典型的にはいくつかの Characteristics カラムが続きます。

GEA の登録システムでは対応する BioSample の sample_name が Source Name、Extract Name、Labeled Extract Name と Assay Name に共通で使用されます。

Source Name Characteristics[organism] Characteristics[ecotype]
Arabidopsis control for heat stress_rep 1 Arabidopsis thaliana Col-0

追加で Source Name を注釈するカラム: ProviderComment.

Extracts

Extract は実験で抽出された核酸のことです。

Source Name Protocol REF Extract Name Material Type
Arabidopsis control for heat stress_rep 1 OSUB000500_Protocol_2 Arabidopsis control for heat stress_rep 1 total RNA

Extracts を注釈するカラム: Characteristics[]Material TypeComment

Labeled Extracts

Labeled Extracts アレイにハイブリダイズする前にラベルされた核酸のことです。マイクロアレイ実験ではどのサンプルにどのラベル(スキャナーのチャンネル)が対応するか記述する Label カラムが Labeled Extract Name カラムに付加されている必要があります。

Extract Name Material Type Protocol REF Labeled Extract Name Label
Arabidopsis control for heat stress_rep 1 total RNA OSUB000500_Protocol_3 Arabidopsis control for heat stress_rep 1 biotin

Labeled Extract を注釈するカラム: Characteristics[]Material TypeComment

Assays

Labeled extract のアレイへのハイブリダイゼーション、もしくは、ライブラリーのシークエンシングは SDRF において「材料(material)」と「データ(data)」セクションをつなぐ要となるステップです。マイクロアレイ実験ではアレイデザインを示す Array Design REF カラムが Assay Name に付加されている必要があります。

Labeled Extract Name Label Assay Name Technology Type Array Design REF
Arabidopsis control for heat stress_rep 1 biotin Arabidopsis control for heat stress_rep 1 array assay A-AFFY-2

Assay Name カラムを注釈する Comment カラムを含めることができます。Assay Name カラムの値は Data Matrix ファイル中でデータカラムと個々のアッセイをリンクするのに使われることがあることに注意が必要です。

Raw Data Files

生データファイルは Assay Name カラムに続く Array Data File カラムにリストする必要があります。

Assay Name Technology Type Array Design REF Array Data File
Arabidopsis control for heat stress_rep 1 array assay A-AFFY-2 Arabidopsis_control_rep_1.CEL

生データファイルに関する情報を補足するのに Comment カラムを使うことができます。

Processed Data Files

マイクロアレイとシークエンシング実験の両方において生データから派生した解析済みデータファイルは Derived Array Data File カラムにリストします。アッセイ毎に一つの解析済みデータファイルがある場合にこのカラムを使います。 複数アッセイからのデータが含まれている場合は解析済みデータファイルを Data Matrix format に変換しこのカラムではなく Derived Array Data Matrix File カラムにファイル名を記載します。

Assay Name Technology Type Array Design REF Array Data File Derived Array Data File
Arabidopsis control for heat stress_rep 1 array assay A-AFFY-2 Arabidopsis_control_rep_1.CEL Arabidopsis_control_rep_1.processed.txt
Factor Values

Factor value は実験で解析対象になっている変数のことです。例えば異なる温度(熱ストレス)が培養細胞に与える影響を調べている場合、単位を示す "Unit" カラムが付いた "temparature" が Factor value になります。

Source Name Comment[description] Assay Name Factor Value[temparature] Unit[temperature unit]
Arabidopsis control for heat stress rep 1 Arabidopsis control for heat stress, biological replicate 1 Arabidopsis control for heat stress rep 1 22 degree_C
Arabidopsis heat stress rep 1 Arabidopsis heat stress, biological replicate 1 Arabidopsis heat stress rep 1 37 degree_C

Factor value は通常 SDRF の他のカラムと重複します。"Factor Value" カラムは Characteristics[] カラムと重複することが多いです。

Factor Value カラムは SDRF の最後(最も右)に配置する必要があります。

GEA は IDF で変数を "Experimental Factor Name" と Type(通常 Name と同じ)として定義します。

Experimental Factor Name temperature
Experimental Factor Type temperature

有効な SDRF カラムヘッダー

Source Name

MAGE-TAB で identifier として使われます。このカラムには Source material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Source Name" を注釈するのに使えます。

Sample Name

MAGE-TAB で identifier として使われます。このカラムには Sample material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Sample Name" を注釈するのに使えます。

Extract Name

MAGE-TAB で identifier として使われます。このカラムには Extract material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Extract Name" を注釈するのに使えます。

Labeled Extract Name

MAGE-TAB で identifier として使われます。このカラムには Labeled Extract material に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Labeled Extract Name" を注釈するのに使えます。

Assay Name

MAGE-TAB で identifier として使われます。このカラムには Assay に対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Assay Name" を注釈するのに使えます。

All "Assay Name" columns must be followed by a "Technology Type" column.

Scan Name

MAGE-TAB で identifier として使われます。このカラムには Scan イベントに対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Scan Name" を注釈するのに使えます。

Normalization Name

MAGE-TAB で identifier として使われます。このカラムには Normalization イベントに対してユーザが定義する値 (デフォルトでは対応する BioSample の sample_name が使われます) を記入します。以下のカラムが "Normalization Name" を注釈するのに使えます。

Array Data File

このカラムは生データファイルを SDRF 1行について1ファイルリストして個々のアッセイとデータファイルを結びつけるのに使います。以下のカラムが "Array Data File" カラムを注釈するのに使えます。

Derived Array Data File

このカラムはマイクロアレイとシークエンシング実験において解析済みデータファイルを SDRF 1行について1ファイルリストして個々のアッセイと解析済みデータファイルを結びつけるのに使います。以下のカラムが "Derived Array Data File" カラムを注釈するのに使えます。

Array Data Matrix File

このカラムではマイクロアレイとシークエンシング実験において複数アッセイからのデータを含む生データファイルを記載します。データとアッセイは Data Matrix 形式ファイル中で対応付けられます。以下のカラムが "Array Data Matrix File" カラムを注釈するのに使えます。

Derived Array Data Matrix File

このカラムではマイクロアレイとシークエンシング実験において複数アッセイからのデータを含む解析済みデータファイルを記載します。データとアッセイ(もしくは Scan や Normalization) は Data Matrix 形式ファイル中で対応付けられます。以下のカラムが "Derived Array Data Matrix File" カラムを注釈するのに使えます。

Array Design REF

このカラムはアッセイで使われたアレイデザインを参照します。GEA 登録では ArrayExpress/GEA アレイデザインアクセッション番号(例 "A-AFFY-2")、もしくは、番号が無い場合はアレイデザインファイル名を記載します。アレイデザインアクセッション番号は ArrayExpress array design search page で検索できます。以下のカラムが "Array Design REF" カラムを注釈するのに使えます。

Protocol REF

このカラムは IDF で定義された Protocol Names への参照を記載します。アクセッション番号発行前はプロトコールは "ESUB000500_Protocol_1" のような一時的な ID で参照されます。アクセッション番号発行後、この ID は "P-GEAD-100" のようなプロトコールアクセッション番号で置換されます。以下のカラムが "Protocol REF" カラムを注釈するのに使えます。

Characteristics[<category term>]

Controlled vocabulary term もしくは測定値を記載します。Source NameSample NameExtract Name もしくは Labeled Extract Name の属性カラムとして使われます。ヘッダー中に示されるカテゴリーに従った属性値を記入して material を記述します。例えば "Characteristics[organism]" は "Homo sapiens" 等の生物名を含みます。デフォルトでは登録者が値を定義しますが、外部オントロジーの値 (例えば organism name に対する NCBI Taxonomy)や計測値 (Unit[] カラムで単位を掲示) を記入することもあります。以下のカラムが "Characteristics[<category term>]" カラムを注釈するのに使えます。

Provider
Source Name を注釈するカラムとして使えます。Source が由来する組織名や提供者名を記載します。

Material Type

Controlled vocabulary termSource NameSample NameExtract Name もしくは Labeled Extract Name を注釈するカラムとして使えます。このカラムには以下の選択肢から各 material を記述する語句を記入します。

  • total RNA
  • polyA RNA
  • cytoplasmic RNA
  • nuclear RNA
  • genomic DNA
  • protein
  • other

Label

Controlled vocabulary term. Labeled Extract Name を注釈するカラムとして使えます。抽出核酸を標識して Labeled Extract を生成したラベル化合物名を記入します。例: Cy3、Cy5、biotin、alexa_546。 以下のカラムが "Label" カラムを注釈するのに使えます。

Technology Type

Controlled vocabulary termAssay Name カラムを注釈するカラムとして使います。GEA はマイクロアレイ実験に対して "array assay"、シークエンシング実験に対して "sequencing assay" を自動で埋め込みます。以下のカラムが "Technology Type" カラムを注釈するのに使えます。

Factor Value[<experiment factor name>]

Controlled vocabulary term もしくは計測値。このカラムでは SDRF の各行の experimental factor values (変数) を記載します。Factor value の変数名をヘッダー中に Experimental Factor Name として定義します。

Example SDRF:

Factor Value[tissue]
gall bladder
kidney
liver
intestine
pancreas

上の例では tissue という変数の値が記載されています。さらに詳細に値を定義するために任意の形式として "Factor Value[]()" を用いることができます。例 "Factor Value[growthconditionEF](Nutrients)"。

変数の組み合わせが解析された場合、一つ以上の Factor Value を記述します。SDRF の例:

Factor Value[compound] Factor Value[dose] Unit[molar mass unit]
none
potassium cyanide 25 micromolar
potassium cyanide 35 micromolar
potassium cyanide 50 micromolar
Factor name は組になる IDF で定義します(GEA は SDRF 中の Factor name を IDF にコピーします):

Experimental Factor Name tissue
Experimental Factor Type tissue
Performer

Protocol REF に続く注釈カラムとして使うことができます。プロトコールが実施された組織名もしくは研究者名を記載します。

Date

Protocol REF に続く注釈カラムとして使うことができます。プロトコールの実施日(とあれば時間)を "YYYY-MM-DD" 形式で記載します。

Parameter Value[<protocol parameter>]

Protocol REF に続く注釈カラムとして使うことができます。このカラムはカラムヘッダー中に含まれるプロトコールのパラメータを記述するのに使うことができます。以下のカラムが "Parameter Value" カラムを注釈するのに使えます。

例えば "Array Hybridization" という名のプロトコールが Protocol Parameters "hyb temp" と共に IDF で定義されている場合、以下のような記載をすることができます。

Protocol REF Parameter Value[hyb temp] Unit[temperature unit]
Array Hybridization 55 degree celsius

Unit[<unit category>]

Controlled vocabulary term。Characteristics[]Factor Value[] もしくは Parameter Value[] に続く注釈カラムとして使うことができます。このカラムは先行するカラムの単位を示すために使います。単位の種類はカラムヘッダー中に "Unit[volume unit]" のように示します。種類は EFOUnit サブクラスから適切なものを記載します。以下のカラムが "Unit[<unit category>]" カラムを注釈するのに使えます。

このケースにおいて Term Source REF は Unit の値が由来するオントロジーを示すのに使います。

Description

Source NameSample NameExtract Name もしくは Labeled Extract Name を注釈するカラムとして使うことができます。対応する material に対するフリーテキストでの説明を記載します。できるだけこのカラムは使わずに Characteristics[] カラムを使って構造的に material を記述します。

Term Source REF

どのような controlled vocabulary カラム (例 Characteristics[])、もしくは、外部エンティティを参照できるカラム (例 Protocol REF) に対しても使うことができます。このカラムは先行するカラム中の値が由来する IDF で定義されたオントロジーやデータベースを参照することができます。以下のカラムが "Term Source REF" カラムを注釈するのに使えます。GEA では ArrayExpress のように登録時点で構造化してオントロジーを適用することはしていません。

Term Accession Number

Term Source REF カラムを注釈するカラムとして使うことができます。オントロジーやデータベース中の記入された値に対するアクセッション番号を記入します。例:

Source Name Characteristics[disease] Term Source REF Term Accession Number
Sample 1 acute lymphoblastic leukemia EFO EFO_0000220

(この例は EFO Term Source が SDRF とペアになっている IDF で定義されていることを前提にしています) GEA では ArrayExpress のように登録時点で構造化してオントロジーを適用することはしていません。

Comment[<comment name>]

このカラムは node と edge カラムを注釈するために使うことができます。このカラムは拡張性を持たすためにあり、生物学的に意味のある事柄を記載するために用いられることを意図していません。カラムヘッダー中に値の種類に対する名前を記載する必要があります。