MAGE-TAB

概要*

DOR のデータ形式は MAGE-TAB version 1.1 です。 MAGE-TAB の詳細は MAGE-TAB Specification Version 1.1 をご覧ください。

MAGE-TAB は以下のファイルを使って研究内容を表現します。

IDF,SDRF,ADF とデータマトリックスファイルはタブ区切りテキストファイルです。

IDF には研究の概要,実験の変数,プロトコール,文献や連絡先情報を記載します。 さらに IDF では MAGE-TAB ファイルで使われる Controlled vocabulary term (コントロールされた語句) が由来するオントロジー体系,データベース名や特定のユーザコミュニティ向けのファイルを定義することができます。

SDRF には生物学的な材料から,ハイブリダイゼーション/シークエンシングを経て,データの取得や正規化に至るまでの一連の実験ステップを記載します。

ADF は ID によってデータファイルと生物学的配列に対するアノテーション情報をリンクします。 DOR に登録されていないアレイを使った場合,アレイデザインを DOR に登録します。 市販されているアレイの多くが ArrayExpress/DOR に登録されています。 ADF の詳細ページ

IDF の "SDRF File" フィールドに対になる SDRF ファイル名を記入し,IDF と SDRF をリンクします。 SDRF にデータファイル名と ADF ファイル名を記入し,SDRF をデータファイルと ADF にリンクします。

IDF,SDRF,ADF と生データファイル,解析処理されたデータファイル間の関係
IDF,SDRF,ADF と生データファイル,解析処理されたデータファイル間の関係

通常,登録データは1つの IDF ファイル,1つの SDRF ファイルと複数のデータファイルから構成されます。 アレイデータの場合,1つのハイブリダイゼーションに対応した1つの生データファイルを登録します。 シークエンシングデータの場合,1つのサンプルに対応した1つの生データファイルを登録します。 正規化されたデータファイルや,解析処理されたデータをまとめたマトリックスファイルを含めることができます。

基本的な規則*

ファイルには空白やタブから成る空行を含めることができます。 # で始まる行はコメントとみなされ無視されます。

"Name" で終わるカラム名 (例: Sample Name) のオブジェクトは "REF" で終わる名前のカラムから参照されます (例: Sample REF)。

MAGE-TAB の構成要素 (IDF,SDRF,ADF とデータマトリックス) では外部のオントロジーやデータベースに由来する語句を使うことができます。 IDF の Term Source REF で語句の参照元を指定します。

IDF,SDRF と ADF は行と列からなるタブ区切りの表です。 フィールドをダブルクォートで囲むことでタブや改行をエスケープさせ,フィールド区切り文字として解釈させないようにすることができます。 フィールド内のクォートはバックスラッシュでエスケープします。 カラムヘッダーをダブルクォートで囲むことはできますが,語句の間以外に空白を入れることはできません。

MAGE-TAB の詳細については MAGE-TAB Specification Version 1.1 を参照してください。

IDF: Investigation Description Format*

IDF は登録に関するトップレベルの情報を含むタブ区切りのテキストファイルです。 フィールドとそれに対する値のセットで情報を記入していきます。 多くのフィールドは複数の値を持つことができます。

IDF フォーマット*

IDF のフィールド一覧
MAGE-TAB Version 1.1   
Investigation Title Text
Experimental Design Ontology term Ontology term ...
Experimental Design Term Source REF Term Source Name Term Source Name ...
Experimental Design Term Accession Number Term Accession Number Term Accession Number ...
Experimental Factor Name Text Text ...
Experimental Factor Type Ontology term Ontology term ...
Experimental Factor Term Source REF Term Source Name Term Source Name ...
Experimental Factor Term Accession Number Term Accession Number Term Accession Number ...
     
Person Last Name Text Text ...
Person First Name Text Text ...
Person Mid Initials Text Text ...
Person Email Text Text ...
Person Phone Text Text ...
Person Fax Text Text ...
Person Address Text Text ...
Person Affiliation Text Text ...
Person Roles Ontology term (semicolon-delimited list) Ontology term (semicolon-delimited list) ...
Person Roles Term Source REF Term Source Name Term Source Name ...
Person Roles Term Accession Number Term Accession Number Term Accession Number ...
     
Quality Control Type Ontology term Ontology term ...
Quality Control Term Source REF Term Source Name Term Source Name ...
Quality Control Term Accession Number Term Accession Number Term Accession Number ...
Replicate Type Ontology term Ontology term ...
Replicate Term Source REF Term Source Name Term Source Name ...
Replicate Term Accession Number Term Accession Number Term Accession Number ...
Normalization Type Ontology term Ontology term ...
Normalization Term Source REF Term Source Name Term Source Name ...
Normalization Term Accession Number Term Accession Number Term Accession Number ...
Date of Experiment Date (YYYY-MM-DD)
Public Release Date Date (YYYY-MM-DD)
     
PubMed ID PubMed ID PubMed ID ...
Publication DOI DOI DOI ...
Publication Author List Text Text ...
Publication Title Text Text ...
Publication Status Ontology term Ontology term ...
Publication Status Term Source REF Term Source Name Term Source Name ...
Publication Status Term Accession Number Term Accession Number Term Accession Number ...
Experiment Description Text
     
Protocol Name ID ID ...
Protocol Type Ontology term Ontology term ...
Protocol Term Source REF Term Source Name Term Source Name ...
Protocol Term Accession Number Term Accession Number Term Accession Number ...
Protocol Description Text Text ...
Protocol Parameters Text (semicolon-delimited list) Text (semicolon-delimited list) ...
Protocol Hardware Text Text ...
Protocol Software Text Text ...
Protocol Contact Text Text ...
     
SDRF File Text
     
Term Source Name Text tag as used in SDRF Text tag as used in SDRF ...
Term Source File URI URI ...
Term Source Version Text Text ...

各行に記入する値の型を2列目に示しています。青色の行は1つの値しか持てませんが,黄色の行は複数の値を持つことができます。例えば "Person Last Name" には登録者のラストネームを必要な人数分記入します。 フィールドに複数の値を記入するときは,それらをセミコロンで区切ります (例: Protocol Parameters,Person Roles)。 セミコロンで区切られた語句は同じオントロジーに由来している必要があります。

オントロジーに由来する語句を使った場合は,対応する Term Source REF に語句の由来元を記載します。IDF の例を参照。 日付は YYYY-MM-DD 形式で記入します。

"Comment []" フィールドを使って自由に情報を付け足すことができます。 Comment の名前は [] に,その内容はカラムに記入します。 使用例:Comment[Goal] に研究のゴールを記載。 DOR では独自の Comment [] タグをいくつか使っています。

IDF に PubMed ID を記入し,登録データを引用した文献情報を記載します。PubMed ID や DOI を持たない文献は Publication 関連のタグにその情報を記入します。

IDF の例*

IDF の例
[insert_glossary gcat="idf"]

SDRF: Sample and Data Relationship Format*

SDRF の最も重要なコンセプトは "Investigation Design Graph" です。 このグラフでノード (Node) は実験材料 (例: Sample,RNA extract,Labeled cDNA 等) やデータ (例: 生データや正規化されたデータファイル) に該当し, エッジ (Edge) はノード間の関係を表します。 ノードとエッジは属性 (Attribute) を持つことができます。 属性値は実験材料やデータを注釈する情報で,例えば Sample Name に対するサンプルの説明,エッジに対するプロトコール,ハイブリダイゼーションに対する生データファイルなどです。 IDF に記載されたプロトコールや外部オブジェクトへのポインターを属性値として使うことができます。

SDRF における Name と Attribute,他のオブジェクトへのポインター
SDRF における Name と Attribute,他のオブジェクトへのポインター

SDRF は「ハイブリダイゼーションチャンネルに対応した行」と「実験のステップを表した列」から構成されるテーブルです。 左から右に時系列で列を並べます。このテーブルの全体構成を下に示します。

SDRF 全体構成
SDRF 全体構成

図中のブロックは "Name" や "File" カラム (例: "Extract Name","Array Data File") で始まり,それらを修飾する一連の属性カラム (Attribute column) が続きます。 ブロック同士はプロトコール ,IDF の "Protocol Name" を参照する "Protocol REF" カラム,で区切られます。

IDF の Experimental Factor Name の値は SDRF の "Factor Value[]" カラムに記入します。 Factor Value[] は Hybridization セクションの右 (図で Scanning,Normalization and Data セクション中かその後) に作成します。

SDRF セクション*

Source

実験の出発材料について記述します。 このセクションは Source Name カラムで始まり,通常,1つの Material Type カラムといくつかの Characteristics カラムが続きます。

Sample

Sample は出発材料の Source に一連の実験処理を施して得られたサンプルです。

Extract

抽出された核酸を記述するセクションです。 核酸の抽出とクロマチン免疫沈降のステップを別々に記載する場合は Extract Name を2つ作成します。

Labeled Extract

Labeled Extract はアレイへのハイブリダイゼーションに用いられたラベルされた核酸です。 Labeled Extract Name 直後の Label カラムに使用したラベルを記入します。

Assay/Hybridization

Assay/Hybridization は SDRF の "Materials" と "Data" エリアをつなぐ要となるセクションです。 アレイ (Hybridization),もしくはシークエンシングを含むアレイ以外のアッセイ (Assay) について記述します。 Assay Name/Hybridization NameData Matrix ファイルのデータ列をアッセイ/ハイブリダイゼーションにリンクするために使われます。

Scan

ハイブリダイズされたアレイのスキャニングというイベントについて記述します。このセクションは任意です。 ハイブリダイズされたアレイを複数回スキャンしたが,データファイルのみからはそのことが分からない場合などに作成します。 Scan NameData Matrix ファイルのデータ列をスキャニングイベントにリンクするために使われます。

Array Data File

得られた生データファイルは Hybridization Name もしくは Assay Name と (任意の) Scan Name カラムに続く Array Data File カラムに記載します。

Normalization

正規化について記述する任意のセクションです。 Normalization Name カラムで「正規化」というイベントを表します。 Normalization NameData Matrix ファイルのデータ列を正規化イベントにリンクするために使われます。

Derived Array Data File

1つのアッセイ/ハイブリダイゼーション (スキャンや正規化) につき,1つの解析処理されたデータファイルが対応している場合, そのファイル名を Derived Array Data File に記載します。 ファイルが複数のアッセイ/ハイブリダイゼーションに由来するデータを含んでいる場合, データをデータマトリックスファイルに整形し Derived Array Data Matrix File カラムにファイル名を記載します。

SDRF の例*

SDRF の例
[insert_glossary gcat="sdrf"]

SDRF カラムヘッダーのまとめ*

"Name" と "File" ノードはグラフエッジである "Protocol REF" で連結されます (Protocol REF 以外のエッジはありません)。 1つ以上の属性値カラムで各ノードとエッジを注釈することができます, 例: "Source Name" に対する "Provider"; "Parameter Value []" に対する "Unit"。 属性値カラムはそれらが注釈する各ノードとエッジの直後に作成します。 同様に,オントロジーに由来する語句の直後に "Term Source REF" を作成し,語句が由来するオントロジーを記載します (を参照)。

下の表は SDRF テーブルの各ノードとそれに対して使用できる属性値をリストしています。

SDRF 属性値とノードとの対応関係 - ノードとエッジカラム
Node/Edge Associated nodes/attributes
Source Name Characteristics, Provider, Material Type, Description, Comment
Sample Name Characteristics, Material Type, Description, Comment
Extract Name Characteristics, Material Type, Description, Comment
Labeled Extract Name Characteristics, Material Type, Description, Label, Comment
Hybridization Name Array Data File, Derived Array Data File, Array Data Matrix File, Derived Array Data Matrix File, Array Design File / REF, Technology Type, Comment
Assay Name Technology Type, Array Data File, Derived Array Data File, Array Data Matrix File, Derived Array Data Matrix File, Array Design File / REF, Comment
Scan Name Array Data File, Derived Array Data File, Array Data Matrix File, Derived Array Data Matrix File, Comment
Normalization Name Derived Array Data File, Derived Array Data Matrix File, Comment
Array Data File Comment
Derived Array Data File Comment
Array Data Matrix File Comment
Derived Array Data Matrix File Comment
Image File Comment
Array Design File / REF Term Source REF, Comment
Protocol REF Term Source REF, Parameter, Performer, Date, Comment
SDRF 属性値とノードとの対応関係 - 属性値カラム
Attribute Associated attributes
Characteristics[] Unit, Term Source REF
Provider Comment
Material Type Term Source REF
Technology Type Term Source REF
Label Term Source REF
Factor Value[]() Unit, Term Source REF
Performer Comment
Date Parameter Value[]
Unit, Comment, Term Source REF Unit[]
Term Source REF Description
Term Source REF Term Accession Number
Term Accession Number Comment[]

SDRF カラムヘッダーの順序と記載可能な数*

Protocol REF 以外の SDRF カラムは以下の表に示す順序と数で記載する必要があります。 ノードや属性値は注釈する要素の直後に設置します。 要素が1つ以上の属性を持つ場合,以下の場合を除き属性の記載順序に制約はありません。

  • Factor Value: 全てのノードやそれに対する属性の後に設置します。
  • Comment: コメントを付加するノードや属性の直後に設置し,Comment と Comment がコメントしている要素との関係を明確にします。
  • Term Source REF: オントロジーに由来する語句の直後に設置します。これにより Term Source REF で参照しているオントロジーとそれに由来する語句との関係が明確になります。
SDRF カラムの順序と記載可能な数
Element Nodes and Factor Values Cardinality Notes
Source Name 0..1
Sample Name 0..*
Extract Name 0..*
Labeled Extract Name 0..1
Hybridization Name 0..1 Assay Name もしくは Hybridization Name のどちらかを記載することができます。
Assay Name 0..1 Assay Name もしくは Hybridization Name のどちらかを記載することができます。
Scan Name 0..*
Image File 0..*
Array Data File 0..*
Array Data Matrix File 0..*
Normalization Name 0..*
Derived Array Data File 0..*
Derived Array Data Matrix File 0..*
Factor Value 0..*
Protocol REF 0..*
注釈する要素に対して記載可能な属性の数
Attributes - all are optional Cardinality Notes
Characteristics 0..*
Provider 0..1
Material Type 0..1
Label 0..1
Array Design File 0..1
Array Design REF 0..1
Technology Type 0..1 Assay Name もしくは Hybridization Name に対する属性。
Performer 0..1
Date 0..1
Parameter Value 0..*
Unit 0..1
Description 0..1
Term Source REF 0..1
Term Accession Number 0..1
Comment 0..*

シークエンシングデータの場合に必要な項目*

上記に記載した IDFSDRF の情報に加え,以下の項目が必要です。

IDF*

  • シークエンシングのプロトコール (Protocol Type="sequencing") を記載し,用いられたシークエンス機器を Protocol Hardware に記載します。
    記入可能なシークエンス機器名:
    454 GS,454 GS 20,454 GS FLX,454 GS FLX Titanium,454 GS Junior,Illumina Genome Analyzer,Illumina Genome Analyzer II,Illumina Genome Analyzer IIx,Illumina HiSeq 2000,Illumina HiSeq 1000,Illumina MiSeq,AB SOLiD System,AB SOLiD System 2.0,AB SOLiD System 3.0,AB SOLiD 4 System,AB SOLiD 4hq System,AB SOLiD PI System,AB SOLiD 5500,AB SOLiD 5500xl,Helicos HeliScope,Complete Genomics,PacBio RS,Ion Torrent PGM,unspecified

SDRF*

  • Assay NameTechnology Type="high_throughput_sequencing" を含めます。
  • Assay Name の前の Protocol REF カラムで IDF に記載したシークエンシングプロトコールを参照します。
  • Performer をシークエンシングプロトコールに付与します - DRA データの run center name として使われます。
  • Array Data File に生データファイル名を記載し,直後の Comment[FILE_TYPE] にファイルフォーマットを sff,Illumina_native_qseq,Illumina_native_fastq,SOLiD_native_csfasta,SOLiD_native_qual,Helicos_native から選択して記入します。必要な生データファイルについてはこちらをご覧ください。
  • Extract Name の後ろに以下の4つの Comment[] カラムを追加し,ライブラリーがどのように作成されたのかを記載します。
    • Comment[LIBRARY_LAYOUT] - SINGLE もしくは PAIRED。
      PAIRED の場合は後ろに以下のカラムを作成し,値を記載します。
      • Comment[ORIENTATION]
      • Comment[NOMINAL_LENGTH]
      • Comment[NOMINAL_SDEV]
    • Comment[LIBRARY_SOURCE] - GENOMIC,TRANSCRIPTOMIC,METAGENOMIC,METATRANSCRIPTOMIC,NON GENOMIC,SYNTHETIC,VIRAL RNA,OTHER から1つ選択
    • Comment[LIBRARY_STRATEGY] - WGS,WXS,RNA-Seq,WCS,CLONE,POOLCLONE,AMPLICON,CLONEEND,FINISHING,ChIP-Seq,MNase-Seq,DNase-Hypersensitivity,Bisulfite-Seq,EST,FL-cDNA,CTS,MRE-Seq,MeDIP-Seq,MBD-Seq,OTHER から選択。
    • Comment[LIBRARY_SELECTION] - RANDOM,PCR,RANDOM PCR,RT-PCR,HMPR,MF,CF-S,CF-M,CF-H,CF-T,MSLL,cDNA,ChIP,MNase,DNAse,Hybrid Selection,Reduced Representation,Restriction Digest,5-methylcytidine antibody,MBD2 protein methyl-CpG binding domain,CAGE,RACE,size fractionation,other,unspecified から選択。

シークエンス機器に関する情報*

SDRFAssay Name の後ろの Comment[] カラムに以下の値を記載します。


DRA のメタデータについては DRA ウェブサイトを参照してください。