Genomic Expression Archive
Accepted Data File Formats
ファイル準備における注意点
- experiment 中の全ての sample/hybridization に対する生データファイルと生マトリックスファイルを登録すること。
- ファイル名は英数字 [A-Z,a-z,0-9]、アンダースコア [_]、ハイフン [-] とドット [.] のみから構成され、空白文字、カッコ、句読点やシンボルを含まないこと。
- 全ての spreadsheet/matrix ファイルはタブ区切りテキストファイル形式 (*.txt) で保存しエクセル形式 (*.xls、*.xlsx) で保存しないこと。
マイクロアレイデータファイル形式
生データファイルの形式
アッセイ毎の生データファイル (推奨):
マイクロアレイスキャナー付属ソフトによって生成される “native” ファイル。Native ファイルは変更・編集せずにそのまま 1 hybridization assay 辺り 1 file として登録します。 一つの assay は Affymetrix アレイのように1チャンネル、もしくは、赤と緑二種類の発色団といったように2チャンネルから構成されている場合があります。
マイクロアレイ製造業者は時と共に様々な生データファイル形式を開発してきました。持っている生データファイル形式が登録可能かどうか不明な場合は下記のリストを参照してください。
生データマトリックス (非推奨):
複数の hybridization assay に由来するデータを含んでいるタブ区切りテキストファイル形式 (.txt、probe が行で assay がカラム) の生データファイル。マトリックスファイル形式の仕様は (Illumina GenomeStudio データファイル以外は) 厳格に定められています。詳細はマトリックスファイルガイドラインと例を参照してください。
プラットフォーム毎の受付フォーマット
生データファイルのプラットフォームはファイルヘッダー中のカラムヘッダーで判定されます。
- Common platforms:
- 他:
- Affymetrix
- 古い GDAC 形式と新しい GCOS/XDA 形式の両方を使って CEL と EXP ファイルを認識します。
- Agilent
- 以下のカラムヘッダーを含むファイルは Agilent ファイルとして認識されます:
Row | Col | PositionX | PositionY |
- Illumina
- Illumina の生データファイルはテキストかバイナリー形式です。テキストファイルは Illumina GenomeStudio software から生成されます。バイナリーの “IDAT” ファイル (“intensity data file”) はスキャナーから生成され illuminaio 等の R/BioConductor パッケージで読み込めます)。バイナリーで解析に必要な全情報を含んでいる IDAT の登録を推奨します。対照的にテキストファイルはどのプローブがコントロールであるか等の情報が別ファイルとなっていて欠けている場合があること、また、フォーマットが統一されておらず統合解析が難しいことがあります。他のデメリットとしてテキストファイルはユーザが何らかのソフトで開いて保存する間に意図せぬ変更が入りやすいという点が挙げられます。GenomeStudio テキストファイルを登録する場合、以下が予期されるカラム構成になります:
PROBE_ID | Assay_Name_1.QT1 | Assay_Name_1.QT2 | Assay_Name_2.QT1 | Assay_Name_2.QT2 |
PROBE_ID は常に “ILMN_123456” のような形式になります。QT は quantitation type の略で AVGSignal といったカラム中の測定値の種類のことです。必要数の quantitation type を含めることができます。カラムは sample name でソートし、次に quantitation type でソートします。
Block | Column | Row | X | Y |
PROBE_ID | X | Y |
GRID | COL | ROW | LEFT | TOP | RIGHT | BOT |
Array Column | Array Row | Spot Column | Spot Row | X | Y |
古い QuantArray 形式は以下のカラムヘッダーで認識されます:
Array Column | Array Row | Column | Row |
Primary | Secondary |
より新しい “lg2” ArrayVision ファイルは以下のカラムヘッダーで認識されます:
Spot labels |
MC | MR | SC | SR |
COL | ROW | SUBGRIDCOL | SUBGRIDROW |
Arr-colx | Arr-coly | Spot-colx | Spot-coly |
Probe_ID | Gene_ID |
Logical_row | Logical_col | Center_X | Center_Y |
Meta Column | Meta Row | Column | Row | Field | Gene ID |
ImaGene 3.0 フォーマットもサポートしています:
Meta_col | Meta_row | Sub_col | Sub_row | Name | Selected |
grid_c | grid_r | spot_c | spot_r | indexs |
- Generic (spotted アレイと platform 特異的でないアレイ)
- 生データファイルが スポットアレイ中のプローブ位置 を示す BlockColumn/BlockRow/Column/Row フィールドを含んでいる場合、以下の4つのカラムの後にデータのカラムが続く一般的な形式を使うことができます:
MetaColumn | MetaRow | Column | Row |
解析データファイル
解析データファイル(processed file)は生データファイルにバックグラウンド補正、正規化や統計的な解析(例 fold-change と p-value の計算)を施すことで得られるファイルのことです。最終的な解析ファイル(final processed data)は関連する論文の結論が導かれる基になったデータのことです。 マイクロアレイスキャナーからの processed file(Affymetrix スキャナーからの .chp ファイル、Illumina BeadChip GenomeStudio ソフトからの出力ファイル)とタブ区切りテキストファイル形式での二次元 matrix ファイルの両方を受け付けています。後者については行が probe/probeset/gene name で1または複数の hybridization からのデータが列になります。GEA は processed data file を以下の場合に受付けています。
- 1 hybridization 辺り1つの processed file (推奨)。複数のまとまった processed file を登録することになります。
- 全ての hybridization からの正規化されたデータを含んだ1つの表 (“matrix”) (非推奨)。
- 異なるデータ処理段階の正規化されたデータを含んだいくつかの表ファイル (“matrix”)、1つは正規化されたプローブの intensity でもう一つは遺伝子単位で算出した fold-change である場合など。
解析済みテキストファイル
二次元の表において行が probe/gene 列が sample/data という形式になっている必要があります。
行が probe/gene: 可能であれば行のヘッダーに対応する array design file 中の probe とマッピングできるオフィシャルな probe name/identifier を含めます。 一列目にのヘッダーに (プローブに対する) Reporter Identifier もしくは (Affymetrix 等の複数プローブセットから構成される要素に対する) CompositeSequence Identifier を記載します。Probe ID が無い場合は gene symbol や他の ID (GenBank cDNA アクセッション番号や UniProt protein アクセッション番号) を記載するようにしてください。
列に Sample/Data: 可能であれば各データカラムヘッダーに SDRF 中のサンプルの対応がとれる sample name を記載します。このマッピングによりデータとサンプルの対応がとれるようになります。
1つの hybridization からのデータを含んでいる processed .txt file は以下のようになります。
Reporter Identifier | sample 1 normalised intensity | sample 1 background |
---|---|---|
probe_name_1 | 233.5 | 69.1 |
probe_name_2 | 129.4 | 27.6 |
以下は行ヘッダーに gene name が記載されている例です。
Human HGNC gene name | sample 1 normalised intensity | sample 1 background |
---|---|---|
CDKN2A | 233.5 | 69.1 |
BRCA2 | 129.4 | 27.6 |
複数 hybridization からのデータを集計した processed “matrix” は以下のようになります。Probe ID が無い場合は gene symbol や他の ID (GenBank cDNA アクセッション番号や UniProt protein アクセッション番号) を記載するようにしてください。
サンプル毎の正規化された値:
Reporter Identifier |
sample 1 normalised |
sample 2 normalised |
sample 3 normalised |
sample 4 normalised |
---|---|---|---|---|
probe_name_1 | 26.9 | 44.3 | 62.3 | 58.5 |
probe_name_2 | 22.9 | 43.7 | 58.2 | 67.4 |
GenBank accession |
sample 1 normalised |
sample 2 normalised |
sample 3 normalised |
sample 4 normalised |
---|---|---|---|---|
BC000578 | 26.9 | 44.3 | 62.3 | 58.5 |
M31642 | 22.9 | 43.7 | 58.2 | 67.4 |
集計された値の matrix (一つのデータカラムが複数サンプルに対応する場合):
Reporter Identifier | drug A treated average | drug B treated average | untreated control average |
---|---|---|---|
probe_name_1 | 44.6 | 89.3 | 290.15 |
probe_name_2 | 98.3 | 36.7 | 100.52 |
Additional file
一細胞解析における spike-in やデータ解析に必要な追加ファイルを additional file として登録することができます(例 E-MTAB-3624)。登録を希望する場合は GEA チームに連絡してください。
シークエンシングデータ
生データファイル
次世代シークエンスの生データは DDBJ Sequence Read Archive (DRA) に事前登録する必要があります。DRA に登録可能なファイルリストをご覧ください。
解析データファイル
最終的な解析データファイル(final processed data)とは関連する論文の結論が導かれる基になったデータのことです。 論文における結論は標準的なアライメントファイル(例 BAM、SAM、BED)からさらに解析を進めたデータに基づいていることが一般的であるため、 GEA はアライメントファイルが解析データファイルとして登録されることを想定していません。 標準的なアライメントファイルのみが解析データである場合は GEA に連絡してください。
解析データファイルの要件は実験の性質に依存するため完全には定められていません。
発現解析では対象となる生物学的特徴(フィーチャー)に関する定量的なデータが生成されます。生物学的特徴は遺伝子、転写産物、エキソン、miRNA 等で通常二種類のデータが生成されます。
- 対象となる生物学的特徴を測定したリード(配列)のカウント数
- 正規化された測定量。例 Cufflinks、Cuffdiff、DESeq、edgeR 等からの出力データ
どちらか、もしくは、両方を解析データとして登録することができます。ファイルはサンプルからのデータをまとめたマトリックスファイルか各サンプルに対応する個別ファイル(推奨)として登録することができます。 発現量に差がある遺伝子だけを抽出するのではなく、全てのサンプルにおける全測定対象の測定値が記載された完全なデータを登録してください。
ChIP-Seq データは定量的なタグ密度を記載したピークファイル等が解析データになることが一般的です。標準的なファイル形式は WIG、bigWig、bedGraph 等です。
解析データファイルにおける測定対象(遺伝子や転写産物等)は公的なアクセッション番号やゲノム座標で実体をトレースできるようになっている必要があります。使用したリファレンスゲノム(例 hg19、mm9、GCF_000001405.13) の ID を normalization data transformation protocol や high throughput sequence alignment protocol に明記します。加えて、解析データファイルの中身と形式に関する情報もこれらのプロトコールに記載します。
WIG、bedGraph、GFF もしくは GTF ファイルを登録する場合、これらのファイル形式の要件については UCSC file format FAQ を参照してください。
解析済み matrix ファイル (アドバンスドユーザ向け)
特定の行と列にあるデータが experiment 中の assay と array design file 中の probe/probe set と人が見て/機械的にマッピングされるファイル形式である厳格な MAGE-TAB 形式での matrix ファイルも受け付けています。詳細はこちらのガイドラインを参照してください。
Additional file
一細胞解析における spike-in やデータ解析に必要な追加ファイルを additional file として登録することができます(例 E-MTAB-3624)。登録を希望する場合は GEA チームに連絡してください。