Genomic Expression Archive
Single-cell submission guide
一細胞解析データの登録方法
次世代シークエンサを利用した遺伝子発現等の一細胞解析データは、生データを DRA、解析済みデータを GEA に登録します。 解析している細胞数(サンプル数)が数十の場合はサンプルとファイルを分割して登録してください。それよりも細胞数が多い場合や分割によって再現性が損なわれる場合は混合したサンプルとファイルを登録してください。
10x Genomics のデータファイルについては What format of 10x Genomics data should I submit to NCBI GEO/SRA? を参考にしてください。
ライブラリー情報
分割・混合登録に関係なく、DRA Experiment の Library Construction Protocol にシングルセルライブラリー構築手法(例 Smart-seq2、10x、Drop-seq)、使用したキットの名前とバージョンを記入します。 10x の場合は 10x chemistry のバージョン (例 v1、v2) も記入します。Library Source では “GENOMIC SINGLE CELL” もしくは “TRANSCRIPTOMIC SINGLE CELL” を選択します。
データファイル形式
DRA の生データとしては基本的に fastq もしくは bam を登録します。混合登録の場合はバーコードやリンカー配列を含めてください。
10x で bam にタグやバーコード配列が含まれていない場合は fastq ファイルを登録します。参考: Generating FASTQs with cellranger mkfastq
GEA の解析済みデータには一細胞レベルのデータを登録します。
GEA Experiment Type
‘RNA-seq of coding RNA from single cells’ もしくは ‘RNA-seq of non coding RNA from single cells’ を選択します。GEA Experiment Type
分割登録の場合
BioSample
細胞毎に BioSample を登録し、サンプル属性として細胞毎の情報を記載します。以下に例を示します。
*sample_name | … | single_cell_identifier | inferred_cell_type | single_cell_well_quality |
---|---|---|---|---|
sample 1 | … | cell 1 | cell type A | OK |
sample 2 | … | cell 2 | cell type B | OK |
sample 3 | … | cell 3 | not applicable | 2 cells |
DRA
サンプル(細胞)毎に分割された fastq もしくは bam を登録します。
GEA
サンプル(細胞)毎に分割された解析済みデータファイルを登録します。
マルチオミックスタイプの研究 (ADT, HTO, TCR, BCR, GDO, CMO) で 10X Genomics のプロトコールと解析ソフトウェアを組み合わせて使っている場合は feature_reference.csv ファイルを含めてデータが正しく解釈できるようにしてください。SDRF では異なるオミックスライブラリを以下のように別の行にしてください。
sample1_GEX |
sample1_TCR |
sample1_ADT |
sample1_HTO |
混合登録の場合
BioSample
ライブラリー(一般的に数百~数千の細胞を含む)毎に BioSample を登録します。
*sample_name | … | tissue |
---|---|---|
library 1 | … | liver |
library 2 | … | heart |
library 3 | … | brain |
DRA
バーコード配列を含んだライブラリー毎の fastq もしくは bam を登録します。10x で bam にバーコード配列が含まれていない場合は fastq ファイルを登録します。参考: Generating FASTQs with cellranger mkfastq
GEA
Cell Ranger の出力ファイル (barcodes.tsv, features.tsv, matrix.mtx)、H5 や HDF5 アーカイブもしくは RDS オブジェクトを登録します。TCR と BCR 一細胞サンプルについては、コンティグアノテーションと細胞のバーコード情報を含めてください。
マルチオミックスタイプの研究 (ADT, HTO, TCR, BCR, GDO, CMO) で 10X Genomics のプロトコールと解析ソフトウェアを組み合わせて使っている場合は feature_reference.csv ファイルを含めてデータが正しく解釈できるようにしてください。
細胞毎の情報はサンプル属性にもライブラリーにも記載されていない状態なので、解析済みデータファイルに細胞毎の属性情報、リードカウントやバーコード配列を含めます。