DDBJ Sequence Read Archive Handbook

DDBJ Sequence Read Archive

DDBJ Sequence Read Archive (DRA) は Roche 454 GS System®、Illumina Genome Analyzer®、Applied Biosystems SOLiD® System などの次世代シークエンサからの出力データのためのデータベースです。 DRA は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーであり、 NCBI Sequence Read Archive (SRA)EBI Sequence Read Archive (ERA) との国際協力のもと、運営されています。

公開された Analysis 以外のデータは3極で自動的にミラーリングされます。

従来のキャピラリ式シークエンサからの出力データは fastq ファイルとして DRA に登録することができます。 クロマトグラムの登録を希望する場合は DDBJ Trace Archive に登録します。

メタデータ

メタデータオブジェクト

メタデータにはシークエンスデータがどのようにして得られたのかが記載されています。 メタデータは SubmissionBioProjectBioSampleExperimentRunAnalysis の各オブジェクトで構成されます。 各オブジェクトは XML スキーマで定義され、相互に関連付けられています。アクセッション番号はオブジェクトに対して発行されます。 オブジェクトの構造とアクセッション番号は DDBJ/EBI/NCBI で共通です。 Experiment、Run、Analysis は SRA のオブジェクトで、BioProject と BioSample は外部データベースのオブジェクトになります。

メタデータの詳細は対応する XML スキーマをご覧ください。DRA XML schema

Submission

登録するオブジェクトをとりまとめるオブジェクト。

BioProject

研究プロジェクト全体の概要。プロジェクトは複数のサンプルやデータセットを含むことが一般的です。

BioSample

生物学的なサンプルに関する記述。サンプルはユニークな属性をもった BioSample として登録します。

Experiment

BioSample に由来するシークエンス用ライブラリーとシークエンスの手法について記載します。 Experiment は1つの BioProject と1つの BioSample を参照します。 複数の Experiment は1つの BioSample を参照することができますが、逆に1つの Experiment が複数の BioSample を参照することはできません。

Run

シークエンス用ライブラリー (Experiment) に由来するファイルをまとめます。 Experiment を介してデータファイルは特定のサンプルにリンクされます。 Run に含まれる全てのファイルは1つの SRA/fastq ファイルにマージされ、Run のアクセッション番号がファイル名になります。そのため、異なるサンプルや replicate に由来するファイルは同じ Run に含めるべきではありません。 一方、ペアードのデータファイルは同じ Run に含め、リードが正しくペアとして処理されるようにします。

Analysis

Run に格納されたデータを解析したデータで、しかるべき登録先がないようなデータを登録します。Analysis は DDBJ/EBI/NCBI で交換していません。 交換を希望する場合は DRA チームに連絡します。 Analysis は DRASearch でインデックスされず、ftp でのファイル公開のみになります。

データモデル

オブジェクトの構成例

登録者は実際のデータにあわせて柔軟にオブジェクトを構成することができます。

最もシンプルなケース

最もシンプルなケース
最もシンプルなケース

三つの菌株の比較ゲノム解析 (ペアエンド)

ペアリードファイルは同じ Run に含めます。

三つの菌株の比較ゲノム解析 (ペアエンド)
三つの菌株の比較ゲノム解析 (ペアエンド)

(Technical, Biological) replicate がある場合 (ペアエンド)

関連する FAQ: 塩基配列登録にはいくつのサンプルが必要ですか?

(Technical, Biological) replicate がある場合 (ペアエンド)
(Technical, Biological) replicate がある場合 (ペアエンド)

関連するデータが別々の論文に発表される場合

関連するデータが別々の論文に発表される場合
関連するデータが別々の論文に発表される場合

メタデータ各項目の説明

必須*
条件によって必須*

Submission

Center Name

登録者が所属する組織に関する情報を記載します。

Center Name*

登録者が所属する組織の Center Name。Center Name リスト。DDBJ/EBI/NCBI SRA にデータを登録する際にはこの Center Name が必要です。

メタデータ作成ツールはアカウント情報から Center Name を自動的に取得します。

Center Name は登録の所有権を示すものではなく、SRA が運用上使用している略称です。所有権は Submitter に記載される登録者にあります。

Lab Name*
登録者が所属する研究室やグループ名。アカウントに登録されている "Lab/Group"、"Department (2)"、"Department (1)"、"Organization" がカンマで連結されたテキストが初期表示されます。

Hold Until

公開方法を指定します。

Hold Until*
公開予定日を設定します。最長で2年後まで設定でき、延長することができます。
Immediate Release*
即日公開。登録作業が終わり次第、データが公開されます。

Submitter

登録者の名前とメールアドレスのリストです。責任者 (principal investigator) を含めてください。登録に関する連絡は記入された全てのアドレスに対して行われます。責任者以外の人が登録作業をした場合、その作業者を含めてください。登録者情報は公開されません。登録者情報を明示したい場合は BioProject に記載してください。

Name*
登録者の名前。
E-mail*
登録者の電子メールアドレス。

BioProject

BioProject ID*
BioProject に登録済みのプロジェクトから該当するものを1つ選択するか、新規に BioProject を登録します。BioProject の登録方法は BioProject Handbook を参照してください。

BioSample

BioSample ID*
BioSample に登録済みのサンプルから該当するものを選択するか、新たにサンプルを登録します。BioSample の登録方法は BioSample Handbook を参照してください。

Experiment

Alias
自動的に Experiment に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
BioSample Used*
Experiment が参照している BioSample を選択します。
Title*
検索結果で表示される Experiment の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は、Experiment の内容をタブ区切りテキストファイルとしてダウンロードし、Title カラムにユニークなテキストを入力しアップロードします。
Library Name
ライブラリーの名前。
Library Source*
ライブラリー構築に用いた試料。
Library Source Description
GENOMIC Genomic DNA (includes PCR products from genomic DNA).
TRANSCRIPTOMIC Transcription products or non genomic DNA (EST, cDNA, RT-PCR, screened libraries).
METAGENOMIC Mixed material from metagenome.
METATRANSCRIPTOMIC Transcription products from community targets.
SYNTHETIC Synthetic DNA.
VIRAL RNA Viral RNA.
OTHER Other, unspecified, or unknown library source material.
Library Selection*
シークエンスに用いたライブラリを構築するためのサンプルの選別や濃縮方法。
Library Selection Description
RANDOM Random shearing only.
PCR Source material was selected by designed primers.
RANDOM PCR Source material was selected by randomly generated primers.
RT-PCR Source material was selected by reverse transcription PCR.
HMPR Hypo-methylated partial restriction digest.
MF Methyl Filtrated.
repeat fractionation Selection for less repetitive (and more gene rich) sequence through Cot filtration (CF) or other fractionation techniques based on DNA kinetics.
size fractionation Physical selection of size appropriate targets.
MSLL Methylation Spanning Linking Library.
cDNA complementary DNA.
cDNA_randomPriming
cDNA_oligo_dT
PolyA PolyA selection or enrichment for messenger RNA (mRNA); should replace cDNA enumeration.
Oligo-dT enrichment of messenger RNA (mRNA) by hybridization to Oligo-dT.
Inverse rRNA depletion of ribosomal RNA by oligo hybridization.
ChIP Chromatin immunoprecipitation.
MNase Micrococcal Nuclease (MNase) digestion.
DNAse Deoxyribonuclease (DNase) digestion.
Hybrid Selection Selection by hybridization in array or solution.
Reduced Representation Reproducible genomic subsets, often generated by restriction fragment size selection, containing a manageable number of loci to facilitate re-sampling.
Restriction Digest DNA fractionation using restriction enzymes.
5-methylcytidine antibody Selection of methylated DNA fragments using an antibody raised against 5-methylcytosine or 5-methylcytidine (m5C)MBD2 protein methyl-CpG binding domain : Enrichment by methyl-CpG binding domain.
MBD2 protein methyl-CpG binding domain MBD2 protein methyl-CpG binding domain.
CAGE Cap-analysis gene expression.
RACE Rapid Amplification of cDNA Ends.
MDA multiple displacement amplification.
padlock probes capture method Padlock Probes capture strategy to be used in conjuction with Bisulfite-Seq.
other Other library enrichment, screening, or selection process.
unspecified Library enrichment, screening, or selection is not specified.
Library Strategy*
ライブラリーの構築手法。
Library Strategy Description
WGS Whole genome shotgun.
WGA Whole genome amplification.
WXS Random sequencing of exonic regions selected from the genome.
RNA-Seq Random sequencing of whole transcriptome.
miRNA-Seq Micro RNA and other small non-coding RNA sequencing.
ncRNA-Seq Capture of other non-coding RNA types, including post-translation modification types such as snRNA (small nuclear RNA) or snoRNA (small nucleolar RNA), or expression regulation types such as siRNA (small interfering RNA) or piRNA/piwi/RNA (piwi-interacting RNA).
ssRNA-seq strand-specific RNA sequencing
WCS Whole chromosome (or other replicon) shotgun.
CLONE Genomic clone based (hierarchical) sequencing.
POOLCLONE Shotgun of pooled clones (usually BACs and Fosmids).
AMPLICON Sequencing of overlapping or distinct PCR or RT-PCR products.
CLONEEND Clone end (5', 3', or both) sequencing.
FINISHING Sequencing intended to finish (close) gaps in existing coverage.
RAD-Seq Restriction Site Associated DNA Sequence
ChIP-Seq Direct sequencing of chromatin immunoprecipitates.
MNase-Seq Direct sequencing following MNase digestion.
DNase-Hypersensitivity Sequencing of hypersensitive sites, or segments of open chromatin that are more readily cleaved by DNaseI.
Bisulfite-Seq Sequencing following treatment of DNA with bisulfite to convert cytosine residues to uracil depending on methylation status.
EST Single pass sequencing of cDNA templates.
FL-cDNA Full-length sequencing of cDNA templates.
CTS Concatenated Tag Sequencing.
MRE-Seq Methylation-Sensitive Restriction Enzyme Sequencing strategy.
MeDIP-Seq Methylated DNA Immunoprecipitation Sequencing strategy.
MBD-Seq Direct sequencing of methylated fractions sequencing strategy.
Tn-Seq Gene fitness determination through transposon seeding.
FAIRE-seq Formaldehyde Assisted Isolation of Regulatory Elements
SELEX Systematic Evolution of Ligands by EXponential enrichment
RIP-Seq Direct sequencing of RNA immunoprecipitates (includes CLIP-Seq, HITS-CLIP and PAR-CLIP).
ChIA-PET Direct sequencing of proximity-ligated chromatin immunoprecipitates.
Hi-C Chromosome Conformation Capture technique where a biotin-labeled nucleotide is incorporated at the ligation junction, enabling selective purification of chimeric DNA ligation junctions followed by deep sequencing
ATAC-seq Assay for Transposase-Accessible Chromatin (ATAC) strategy is used to study genome-wide chromatin accessibility. alternative method to DNase-seq that uses an engineered Tn5 transposase to cleave DNA and to integrate primer DNA sequences into the cleaved genomic DNA
Targeted-Capture
Tethered Chromatin Conformation Capture
Synthetic-Long-Read binning and barcoding of large DNA fragments to facilitate assembly of the fragment
Other Library strategy not listed.
Library Construction Protocol

DNA の断片化 (DNA fragmentation)、アダプター配列などのライゲーション (DNA ligation) や濃縮 (DNA enrichment) 方法をフリーテキストで記載します。キットを使用した場合はキットの名前とバージョン (あれば) を含めます (例 Illumina Nextera DNA Library Preparation Kit)。

参考: Alnasir J, Shanahan HP. Investigation into the annotation of protocol sequencing steps in the sequence read archive. Gigascience. 2015 May 9;4:23. doi: 10.1186/s13742-015-0064-7. eCollection 2015. PMID: 25960871 (Open Access)

Instrument*
シークエンサの機種を選択します。
Instrument Model
454 GS
454 GS 20
454 GS FLX
454 GS FLX+
454 GS FLX Titanium
454 GS Junior
Illumina Genome Analyzer
Illumina Genome Analyzer II
Illumina Genome Analyzer IIx
Illumina HiSeq 1000
Illumina HiSeq 1500
Illumina HiSeq 2000
Illumina HiSeq 2500
Illumina HiSeq 3000
Illumina HiSeq 4000
Illumina NovaSeq 6000
Illumina MiSeq
Illumina MiniSeq
Illumina iSeq 100
Illumina HiScanSQ
HiSeq X Five
HiSeq X Ten
NextSeq 500
NextSeq 550
Helicos HeliScope
AB SOLiD System
AB SOLiD System 2.0
AB SOLiD System 3.0
AB SOLiD 3 Plus System
AB SOLiD 4 System
AB SOLiD 4hq System
AB SOLiD PI System
AB 5500 Genetic Analyzer
AB 5500xl Genetic Analyzer
AB 5500xl-W Genetic Analysis System
Complete Genomics
MinION
GridION
PromethION
PacBio RS
PacBio RS II
Sequel
Ion Torrent PGM
Ion Torrent Proton
Ion Torrent S5
Ion Torrent S5 XL
AB 310 Genetic Analyzer
AB 3130 Genetic Analyzer
AB 3130xL Genetic Analyzer
AB 3500 Genetic Analyzer
AB 3500xL Genetic Analyzer
AB 3730 Genetic Analyzer
AB 3730xL Genetic Analyzer
Spot Type*
データファイル中のリード構成を選択します。
Spot Type Description
single Single read
paired (FF) Paired reads with same direction.
paired (FR) Paired reads with opposite direction.
Nominal Length*
ペアエンドライブラリを構築した際のインサートサイズ。
Nominal Sdev
インサートサイズの標準偏差
Spot Length*

データファイル中のリードの長さを記載します。ペアードの場合は両リードの合計長 (ギャップ長は除きます) を記入します。

  • Spot length が一定の場合、一定の値を記入
  • リード長が一定ではない 454 プラットフォームの場合、フロー数を記入
  • 不定長の fastq の場合、平均長を記入

Run

Alias
自動的に Run に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title*
Run の短いタイトル。ユニークなタイトルを付けます。 検索結果で表示される Run の短いタイトル。 自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。 独自のタイトルを入力する場合は、Run の内容をタブ区切りテキストファイルとしてダウンロードし、Title カラムにユニークなテキストを入力しアップロードします。
Experiment Referenced*
Run が属する Experiment を選択します。

Data files for Run

Run に含めるデータファイルを選択します。

Run/Analysis
データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず、属している Run もしくは Analysis の alias が選択されると自動的に入力されます。タブ区切りテキストファイルで入力する場合には、Run もしくは Analysis を入力します。
File Name*
シークエンスデータファイル名。DRA サーバにアップロードされているファイル名が自動的に入力されます。
Run/Analysis contains files*
データファイルが属する Run を選択します。
File Type*
シークエンスデータのファイル形式。リード長が一定ではない fastq ファイルの場合は "generic_fastq"、一定の場合は "fastq" を選択します。
File Type Description
generic_fastq fastq files with variable read length
fastq fastq files with constant read length
sff 454 Standard Flowgram Format file
hdf5 PacBio hdf5 Format file
bam Binary SAM format for use by loaders that combine alignment and sequencing data
tab A tab-delimited table maps "SN in SQ line of BAM header" and "reference fasta file"
reference_fasta Reference sequence file in single fasta format used to construct SRA archive file format. Filename must end with ".fa"
MD5 Checksum*
データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法

Analysis

Alias
自動的に Analysis に付けられる名前。アクセッション番号のないオブジェクトは Alias で参照されます。
Title*
Analysis オブジェクトのタイトル。
Description*
Analysis の内容を記述します。
Analysis Type*
Analysis の種類を選択します。アライメントデータは Run に登録します。
Analysis Type Description
De Novo Assembly A placement of sequences including trace, SRA, GI records into a multiple alignment from which a consensus is computed..
Sequence Annotation Per sequence annotation of named attributes and values.
Example: Processed sequencing data for submission to dbEST without assembly.
Reads have already been submitted to one of the sequence read archives in raw form.
The fasta data submitted under this analysis object result from the following treatments, which may serve to filter reads from the raw dataset:
    - sequencing adapter removal
    - low quality trimming
    - poly-A tail removal
    - strand orientation
    - contaminant removal.
Abundance Measurement Identify the tools and processing steps used to produce the abundance measurements (coverage tracks).

Data files for Analysis

Analysis に含めるデータファイルを選択します。

Run/Analysis
データファイルが Run もしくは Analysis に属しているのかを指定します。ウェブ画面上では入力できず、属している Run もしくは Analysis の alias が選択されると自動的に入力されます。タブ区切りテキストファイルで入力する場合には、Run もしくは Analysis を入力します。
File Name*
解析データのファイル名。
Run/Analysis contains files*
データファイルが属する Analysis を選択します。
File Type*
解析データのファイル形式。
File Type Description
bam Binary form of the Sequence alignment/map format for read placements, from the SAM tools project.
See http://sourceforge.net/projects/samtools/.
tab A tab delimited text file that can be viewed as a spreadsheet. The first line should contain column headers..
ace Multiple alignment file output from the phred assembler and similar programs.
See http://www.phrap.org/consed/distributions/README.16.0.txt for a description of the ACE file format..
fasta Sequence data format indicating sequence base calls.The format is simple: a header line initiated with the > character, data lines following with base calls..
wig The wiggle (WIG) format allows display of continuous-valued data in track format.This display type is useful for GC percent, probability scores, and transcriptome data.
See http://genome.ucsc.edu/goldenPath/help/wiggle.html for a description of the Wiggle Track format..
bed BED format provides a flexible way to define the data lines that are displayed in an annotation track.
See http://genome.ucsc.edu/FAQ/FAQformat#format1 for a description of the BED format..
vcf Variant Call Format.
See http://www.1000genomes.org/wiki/analysis/variant%20call%20format/vcf-variant-call-format-version-41 for a description of the VCF format.
maf Mutation Annotation Format
gff General Feature Format
csv
tsv
MD5 Checksum*
Analysis データファイルの MD5 チェックサム値。MD5 チェックサム値の取得方法補足

Run データファイル

アライメントデータやシークエンスデータを登録します。

  • fasta は受け付けていません。最低限 quality score 付きのベース/カラーコールデータが必要です。
  • バーコード配列で由来サンプルが区別されたデータファイルは登録前に分割し、由来サンプルごとに BioSample を作成します。各 BioSample には1つかそれ以上のユニークなデータファイルがリンクされている状態にします。
  • fastq ファイルの場合、ペアリードは別々のファイルとして登録します。bam や sff ファイルの場合、分割する必要はありません。
  • データファイルは登録用ディレクトリの直下に置いてください。基本的に tar などのアーカイブファイルのなかにディレクトリを作成しないでください。
  • BAM、SFF や HDF5 などのバイナリーファイルは圧縮しないでください。

登録するデータファイルの形式について

DRA のメタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。 「technical read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」はメタデータを XML ファイルで登録する必要があります。

一般的な形式

Format Platform Recommended
BAM all platforms Yes
fastq all platforms Yes

プラットフォーム特異的な形式

Format Platform Recommended
SFF 454 and Ion Torrent Yes
PacBio HDF PacBio Yes
SOLiD csfasta/qual SOLiD No (please convert to fastq/bam)
Illumina qseq and scarf Illumina No (please convert to fastq/bam)

BAM ファイル

Binary Alignment/Map (BAM) ファイルは DRA への登録にとって好ましいファイル形式の一つです。BAM は Sequence Alignment/Map (SAM) ファイル形式のバイナリー圧縮です (詳細は SAMv1.pdf)。BAM ファイルは SAM/BAM 用ツール (例えば samtools) で human-readable なテキスト形式である SAM に変換することができます。BAM はアライメントされなかった unaligned read を含めることができます。DRA はプライマリーデータとして Run に unaligned read を含む BAM を登録することを推奨しています。

SAM はリードの既知リファレンス配列へのアライメントに関する情報と生リードデータを含んだタブ区切りテキストファイルです。 SAM ファイルは二つの主要なセクション、ヘッダーとアライメント(シークエンスリード)セクション、から構成されます。 ここでは「BAM ファイルの DRA への登録」という観点で SAM フォーマットについて説明していることに留意してください(DRA は SAM ファイルでの登録を受付けていません)。 より詳細なファイルフォーマット仕様は samtools ウェブサイトを参照してください。

SAM ヘッダーの例:

@HD    VN:1.4    SO:coordinate
@SQ    SN:CHROMOSOME_I    LN:15072423
UR:ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/invertebrates/Caenorhabditis_elegans/
WBcel215/Primary_Assembly/assembled_chromosomes/FASTA/chrI.fa.gz    AS:ce10    
SP:Caenorhabditis elegans
 
@SQ    SN:CHROMOSOME_II    LN:15279345    
UR:ftp://ftp.ncbi.nlm.nih.gov/genbank/genomes/Eukaryotes/invertebrates/Caenorhabditis_elegans/
WBcel215/Primary_Assembly/assembled_chromosomes/FASTA/chrII.fa.gz     AS:ce10    
SP:Caenorhabditis elegans  
 
@RG    ID:1    PL:ILLUMINA    LB:C_ele_05    DS:WGS of C elegans    PG:BamIndexDecoder
@PG    ID:bwa    PN:bwa    VN:0.5.10-tpx

SAM アライメントの例:

3658435    145    CHROMOSOME_I    1    0    100M    CHROMOSOME_II    2716898    0    
GCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCT
AAGCCT    
@CCC?:CCCCC@CCCEC>AFDFDBEGHEAHCIGIHHGIGEGJGGIIIHFHIHGF@HGGIGJJJJJIJJJJJJJJJJJJJJJJJJJJJHHHHHFF
FFFCCC    RG:Z:1    NH:i:1    NM:i:0
    
5482659    65    CHROMOSOME_I    1    0    100M    CHROMOSOME_II    11954696    0    
GCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCTAAGCCT
AAGCCT    
CCCFFFFFHHGHGJJGIJHIJIJJJJJIJJJJJIJJGIJJJJJIIJIIJFJJJJJFIJJJJIIIIGIIJHHHHDEEFFFEEEEEDDDDCDCCCA
AA?CC:    RG:Z:1    NH:i:1    NM:i:0

BAM ファイル処理

ヘッダーとアライメントセクションは整合的である必要があります: 各アライメントリードの RNAME (リファレンス配列の名前、3フィールド目) はヘッダー中の SN タグ値 (例 CHROMOSOME_I) と一致している必要があります。加えて、アライメントリードの任意フィールドである read group (RG:Z:) はヘッダー中の read group ID と一致している必要があります (例 1)。 また、2フィールド目の FLAG フィールドはデータに対して正しい値がセットされていることが重要です。 DRA ファイル処理パイプラインは不正な FLAG 値を補正しますが、不正な値が多すぎる場合はエラーになります。DRA はアライメントセクション中の任意かつ非標準のタグ/フィールド値は保持しません。 しかし、ヘッダーセクション全体は保持されます。

SAM フォーマットはリードのリファレンスへの全体マッチを表すイコールサイン (=) の sequence フィールドでの使用、もしくは、アスタリスク (*) の sequence と quality 両フィールドでの使用を許容していますが、DRA 処理パイプラインはこれらの値を認識しません。

予期せぬ表記方法で記されたペアリードは適切に認識されず不適切な SRA ファイル形成をもたらします(ペアリードがシングルフラグメントとして扱われてしまいます)。例えば、リード名の後ろに :0 と :1 と付されたリードはペアのリード1と2として認識されません。これらの表記方法が使用されている場合、:0 と :1 を削除して同じリード名を使ったほうがよいです。特定のシークエンサから出力される標準的な表記方法は正しく認識されます。 例えば、Illumina のリード名に付された /1 と /2 は標準的な表記方法です。 ペアリードに対して SAM/BAM flag に適切なビット値 (multi-segment template 1-bit、first segment 64-bit と last segment 128-bit) が設定されていない場合、もしくは、ペアリードが別々の bam ファイルに分かれている場合は適正な SRA ファイルが生成されません。

Run にアライメントデータを登録する場合は、「BAM」、「INSDC, refseq アクセッション番号 OR リファレンス配列マルチ fasta、それから bam SN リファレンス名、との対応表」が必要です。1 Run に 1 bam ファイルを登録します。

Run ではなく Analysis に登録する場合対応表は不要ですが、アライメントされなかったリードを含めた bam を Run に登録することを強く推奨します。

PacBio や IonTorrent などでリファレンス配列がない bam ファイル (unmapped bam でありヘッダーに SQ 行がない) が出力データの場合、対応表やリファレンス fasta を指定する必要はありません

将来、新しいツールで再解析や再アライメントする際に重要であるため、bam ファイルのみを登録するときはアライメントされなかったリード (unaligned reads) を含めてください。

bam とリファレンス配列の対応付け
bam とリファレンス配列の対応付け
  • BAM

  • アライメントデータを BAM フォーマットで登録することができます。BAM ファイルは SAMtoolspicard で読み込める形式になっている必要があります。圧縮していない BAM ファイルをアップロードしてください。

    Run の File Type には "bam" を選択します。

  • リファレンスを INSDC/RefSeq アクセッション番号で指定

  • リファレンス配列がリストにある場合、アクセッション番号.バージョン番号 (例 NC_000001.11) でリファレンスを参照することができます。 配列のバージョン番号は必須です。リファレンスゲノム配列のアクセッション番号は NCBI Assembly で検索することができます。

  • リファレンスをマルチ fasta で提供

  • リファレンス配列がリストにない場合、リファレンス配列をマルチ fasta ファイルで提供します。真核生物のオルガネラ配列等短い配列は番号指定に対応していないケースがあります。 Run の File Type には "reference_fasta" を選択します。bam ヘッダーで定義されたリファレンスとマルチ fasta 中の配列は対応表を介して defline 中の配列名でリンクされます。 bam SQ 行 LN タグのリファレンス配列長とマルチ fasta 中の配列長が異なっている場合ワーニングになります。

  • INSDC/RefSeq アクセッション番号とマルチ fasta が混在するケース

  • 一部のリファレンス配列がリストにある場合、アクセッション.バージョン番号 (例 NC_000001.11) で一部のリファレンスを指定し、 残りのリファレンス配列はマルチ fasta ファイルで提供します。混在しているケースでは、対応表にアクセッション.バージョン番号とマルチ fasta 中の defline 中の配列名を記載します。

  • SN-リファレンス配列の対応表

  • ご自分で独自に作成するファイルです。「BAM ファイルヘッダーの SQ 行中の SN 値」と「アクセッション番号 OR リファレンスマルチ fasta ファイル中の配列名」との対応関係をタブ区切りで記載します。 Run の File Type には "tab" を選択します。

    BAM ファイルヘッダー
@HD VN:1.0 GO:none SO:coordinate
@SQ SN:chr1 LN:249698942
@SQ SN:chr2 LN:242508799
@SQ SN:chr3 LN:198450956
...
SN-リファレンス配列の対応表。例では SN:chr1 にリファレンス fasta ファイル中の配列 ref1 が対応。
chr1 ref1
chr2 ref2
chr3 ref3
...
リファレンスマルチ fasta。
>ref1
CGGTGGGGGTGGTGTTAGTACCCCATCTTGTAGGTCTGAAACACAAAGTGTGGGGTGTCT
...
>ref2
TCCACCAACGTTAGAAGGCCTTGGCCCCCAGAGAGCCAATTTCACAATCCAGAAGTCCCC
...
>ref3
GTGTGTGACCAGGGAGGTCCCCGGCCCAGCTCCCATCCCAGAACCCAGCTCACCTACCTT
...
SN-リファレンス配列の対応表。例では SN:chr1 に NC_000001.11 が対応。
chr1 NC_000001.11
chr2 NC_000002.12
chr3 NC_000003.12
...

fastq

Run の filetype はリード長が一定・不定によって異なります。

  • リード長が揃っている fastq ファイルの場合、Run の file type で fastq を選択します。ペアードデータの場合、対になっているファイル中でペアとなっているリードが同じ順番で記載されている必要があります。
  • リード長が一定ではない fastq ファイル: Run の file type で generic_fastq を選択します。

fastq の形式。詳しくはNCBI のサイトをご覧ください。

  • Quality value は phred 形式にしてください。オフセットはデフォルトで 33 (!) になります。64 (@) の場合は Run XML を編集して ascii_offset="@" にしてください。
  • Technical read (アダプター、リンカー、バーコード配列) を除去してください。
  • ペアードリードは別々の fastq ファイルとして登録してください。リード名にペアリードを同定するためのサフィックス (例 '/1' と '/2') が含まれている必要があります。
  • 各リードの最初の行は '@' で始まっている必要があります。
  • ベースコールと Quality value は '+' で始まる行で区切られている必要があります。
  • fastq ファイルは gzip もしくは bzip2 で圧縮してください。

454

454 からのシークエンスデータは sff ファイル か fastq/bam ファイルで登録します。

sff ファイル中のリード名は、プレート内の位置情報とユニークな run id を反映した情報を含んでいるので、sff ファイルを書き変えないでください。

sffファイル形式はすでに最適化されており、ファイルをさらに圧縮する必要はありません。圧縮していない sff ファイルを送付してください。

sff ファイルに2つ以上のサンプルに由来するデータが含まれている場合は、sff から生成した fastq ファイルをサンプルごとに分割して登録してください。

Illumina Genome Analyzer

Illumina Native Data

Illumina pipeline v1.4 以降

qseq ファイルでの登録は受け付けておりません。fastq/bam ファイルに変換してから登録してください。

SOLiD

SOLiD Native Format

SOLiD native ファイルでの登録は受け付けておりません。fastq/bam ファイルに変換してから登録してください。

Ion Torrent

sff ファイルもしくは fastq/bam ファイルを登録します。

Helicos Heliscope

quality value をすべて "14" として作成した fastq/bma ファイルを登録します。

Complete Genomics

fastq ファイルを登録します。

Pacific Biosciences

Pacific Biosciences は生データを格納するためにディレクトリ様構造を持つ HDF5 ファイルを使用しています。DRA は bas.h5 と bax.h5 両方のファイル形式での登録を受け付けています。RS II から出力されるデータは、1つの Run に *.bas.h5 1ファイルと *.bax.h5 3ファイルを登録します。ファイル名を変更しないでください。

Run に HDF5 以外のデータを含めないでください。

Pacific Biosciences からの出力データは fastq/bam ファイルでの登録も受け付けています。リード長が一定ではないので、Run filetype には "generic_fastq" を指定してください。

Oxford Nanopore

fastq/bam ファイルを登録します。

キャピラリシークエンサ

fastq/bam ファイルを登録します。

Analysis データファイル

PacBio Base Modification Files

PacBio シークエンサーは塩基配列に加え、塩基のメチル化状態を解析することができ、そのデータを共有することは研究者コミュニティにとって重要です。 例えば、修飾された塩基の正確な位置情報は DNA メチルトランスフェラーゼの特異性の解析に用いることができます。 PacBio の解析ソフトウェア (RS_Modification_and_Motif_Analysis) はこれらの修飾塩基配列情報を抽出し、以下のいくつかのファイルに出力します:

  • motif_summary.csv
  • modifications.csv
  • modifications.gff
  • motifs.gff

この解析結果ファイル、原核生物については少なくとも motif_summary.csv ファイルを DRA Analysis として登録することは研究者コミュニティにとって貴重なデータになります。 Run に加え、これらのファイルを Sequence Annotation type Analysis として是非ご登録ください。 サポートが必要な場合は DRA チームにご連絡ください

NCBI guidelines of PacBio Base Modification Files

DRA へのデータ登録

研究責任者 (principal investigator) の許可なくデータを登録しないでください。
ヒトを対象とした研究データの登録について
研究対象者に由来するデータを DDBJ センターが運営するデータベースに登録する場合、研究対象者の尊厳及び人権は、適用されるべき法令、指針、ガイドライン、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。原則として、研究対象者を直接特定し得る情報はメタデータから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」を熟読してください。
特許に関連するデータの登録
登録するデータが特許に関連する場合は、「特許に関連する塩基配列の登録に関する注意、データの優先権」の内容を必ずご確認ください。

次世代シークエンサからのデータを DRA に登録するためにはメタデータとシークエンスデータが必要です。

アセンブルした配列データは DDBJ へ登録します。DDBJ Mass Submission System (MSS) が、次世代シークエンサから生み出されるゲノムや大量データの登録受付先になります。

DRA 登録の流れ

1. 登録アカウントを作成

2. DRA 登録を作成しデータファイルをアップロード

3. プロジェクトとサンプル情報を登録

BioProject (Study)

  • 研究プロジェクトの内容
  • 「なぜ」そのサンプルをシークエンスしたのか

BioSample (Sample)

  • 生物学的、物理的にユニークなサンプル
  • 「何を」シークエンスしたのか

メタデータをタブ区切りテキストファイルで登録できます

4. Experiment と Run を登録

DRA Experiment

  • 特定のサンプルから構築したライブラリーについての説明
  • 「どのように」シークエンスをしたのか
  • 複数の Experiment は一つの Sample を参照できるが、逆はできない

DRA Run

  • Experiment と Run を投稿した後、データファイルの検証処理を開始
  • Run にリンクしている全てのデータファイルは 1 つの SRA ファイルにマージされます

5. シークエンスデータファイルの検証処理

  • シークエンスデータファイルをアーカイブ用 SRA ファイルに変換する処理を開始
  • 検証処理を通った登録が査定されアクセッション番号が発行される

DRA へのデータ登録方法

BioProject, BioSample, DRA への登録

登録アカウント

日本 DNA データバンク (DDBJ) センターBioProjectBioSampleDRA への登録をユーザアカウントで管理しています。

登録アカウントマニュアルに従い、登録アカウントを取得し、DRA 登録権限をアカウントに追加します。

データ構成

オブジェクトの構成例はこちらをご覧ください。 Submission 中では1つの BioProject のみ登録できます。 BioSample、Experiment、Run は複数登録することができます。サンプル数を中心に考えるとデータを構成しやすくなります。

ここでは3つのバクテリア菌株のゲノム配列をペアーエンドでシークエンスしたデータを登録する場合を例に説明します。

三つの菌株のゲノム配列を登録
三つの菌株のゲノム配列を登録

新規登録の作成

D-way (https://ddbj.nig.ac.jp/D-way) にログインします。上部の DRA メニューから DRA のデータ登録一覧ページへ進みます。

[New submission] をクリックし、新規登録を作成します。
同時に、データ受付サーバ (ftp-private.ddbj.nig.ac.jp) に対応するディレクトリがホーム直下に作成されます。データファイルはこのディレクトリにアップロードします

DDBJ センターから登録者に問い合わせた後三か月以上回答が無い場合は Submission をキャンセルいたします。

オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。

新規 DRA 登録の作成

登録のステータスには以下のものがあります。"submission_validated" と "data_error" になった登録が査定されます。

DRA 登録のステータス一覧
ステータス 状態
New メタデータの投稿前
metadata_submitted メタデータが投稿された
data_validating データファイルの検証処理中
data_error データファイルの検証処理エラー
submission_validated メタデータとデータファイルの検証処理が完了
completed アクセッション番号が発行された
confidential 公開用ファイルの作成処理が完了し、非公開に保たれている状態
Public 公開されている状態

シークエンスデータのアップロード

メタデータを作成する前に登録するシークエンスデータファイルをアップロードします。先にメタデータを作成する場合は適当なファイルをアップロードしてください。

ターミナルによるシークエンスデータの転送 (Linux/Mac OS X)

ファイルを SCP 転送します。

$ scp <Your Files> <D-way Login ID>@ftp-private.ddbj.nig.ac.jp:~/<DRA Submission ID>
  • <Your Files> 転送するファイル。例: file1 file2 (file1とfile2)、file* (fileではじまる全てのファイル)
  • <D-way Login ID> D-way の Login ID (例 test07)
  • <DRA Submission ID> DRA 登録の Submission ID (例: test07-0018)
  • コマンドの例: scp strainA_1.fastq test07@ftp-private.ddbj.nig.ac.jp:~/test07-0018

鍵を作成したときに指定したパスフレーズを入力します。

Enter passphrase for key '/home/you/.ssh/id_rsa': 

サーバにログインし、直接ファイルを操作することができます。サーバに SSH でログインします。

$ ssh <D-way Login ID>@ftp-private.ddbj.nig.ac.jp

鍵を作成したときに指定したパスフレーズを入力します。

Enter passphrase for key '/home/you/.ssh/id_rsa':

ログインに成功すると、次のコマンドプロンプトが表示されます。

[test07@dradata ~]$

サーバのログイン環境は、登録者専用のプライベート環境になっていて、登録者以外はアクセスすることができません。実行できるコマンドは下記のものに制限されています。不要なファイルの削除は登録者が実施することができます。

ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip

WinSCP によるシークエンスデータの転送 (Windows)

DRA への登録 ~データの転送 (Windows)~

WinSCP (http://winscp.net/eng/download.php) をインストールし、起動します。

以下のように設定した後、 右中央にある [Advanced...] をクリックします。

転送モードはバイナリモードにします。テキストモードで転送しないでください。

  • File protocol: SFTP
  • Host name: ftp-private.ddbj.nig.ac.jp
  • Port number: 22
  • User name: (D-way の Login ID を入力)
  • Password: (空欄のまま)
秘密鍵の登録1

"Authentication" にある "Private key file" で、事前に作成した PuTTY 形式の秘密鍵を選択します。

秘密鍵の登録2

最後に、下中央にある [Login] をクリックします。

winSCPへのログイン

初回接続時には警告メッセージが表示されますが、“はい” を選択してください (次回から表示されません)。次の画面では、鍵を作成した際に指定したパスフレーズを入力します。

ログインに成功すると、左側のウィンドウにユーザの PC のフォルダ、右側のウィンドウにデータ受付サーバの登録者専用ディレクトリが表示されます。 左側ウィンドウでファイルを選択し右側ウィンドウへドラッグ&ドロップし、サーバへファイルを転送します。

ファイルの転送

転送したファイルは、ファイルを選択し [削除] ボタンをクリックすることで削除できます。

Cyberduck によるシークエンスデータの転送 (Mac OS X)

DRA への登録 ~データの転送 (Mac)~

Cyberduck (http://cyberduck.ch) をインストールし、起動します。

トップ画面で “Open Connection” を選択します。

open_connection

使用する転送方式で “SFTP (SSH File Transfer Protocol)” を選択します。

SFTP

Cyberduck の起動画面で、以下のように設定し More Options の “Use Public Key Authentication” をチェックします。

  • Server: ftp-private.ddbj.nig.ac.jp
  • Port: 22
  • Username: (D-wayのLogin IDを入力)
  • Password: (空欄のまま)
  • Add to Keychain: (チェックを入れる)
key_authentication

秘密鍵 (private key) はデフォルトで “ユーザのホームフォルダ .ssh フォルダ (Finder からは見えない隠しフォルダ) > id_rsa” に保存されています。

private_key

初回接続時には警告メッセージが表示されますが “常に” を選択してください (次回から表示されません)。

ログインに成功すると、データ受付サーバの登録者専用ディレクトリが表示されます。登録者の PC にあるファイルを選択しウィンドウにドラッグ&ドロップすることで、ファイルをサーバに転送します。

transfer

ftp-private.ddbj.nig.ac.jp サーバに秘密鍵を使って ssh でログインすることができます。 実行できるコマンドは下記のものに制限されています。不要なファイルの削除は登録者が実施することができます。
ls cd cp mv rm more mkdir tar gzip gunzip bzip2 bunzip2 zip unzip

DDBJ 大量登録システム (Mass Submission System, MSS) 用の登録ファイルでサイズがメール添付の上限を超えるような場合は DRA サーバを利用することができます。 MSS チームに連絡した後、ファイルを /submission/[submitter ID]/mass にアップロードします。

ウェブツールでのメタデータ作成

作成した新規登録をクリックし、登録詳細ページへ移動します。

登録詳細ページへ移動
登録詳細ページへ移動

登録詳細ページ中の [Enter / Update metadata] をクリックし、メタデータ作成ツールを起動します。

メタデータ作成ツールを起動
メタデータ作成ツールを起動

新規登録に対応するファイルサーバのディレクトリにデータファイルがアップロードされていない場合、下記のようなメッセージが表示されます。データファイルをアップロードします

先にメタデータを作成しておきたい場合は、適当なファイルをアップロードしておきます。

データファイルがアップロードされていない場合
データファイルがアップロードされていない場合

メタデータは Submission、BioProject、BioSample、Experiment、Run、Analysis (任意) オブジェクトで構成されています。 メタデータ作成ツールの画面上で、各項目に内容を英語で入力していきます。

入力画面で必須項目は赤色のアスタリスク記号 () で示されています。

画面の下部にある [Save] や次のオブジェクトへの移動ボタンをクリックすると入力内容がチェックされます。エラーが表示された場合は内容を修正してください。

Submission

公開予定日を2年以内に設定します。 登録者には実作業者と責任者を含む複数名を指定してください。登録者情報は一般に公開されません。

オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。

Submission に登録情報を入力

Study

[register a project] をクリックして新規にプロジェクトを登録するか、もしくは、自身のアカウントで登録したプロジェクト一覧から、該当するものを1つ選びます。 従来通りプロジェクトを BioProject から個別に登録することもできます。

複数のプロジェクトを登録することはできません。 自身のアカウント以外で取得されたプロジェクトを参照したい場合は DRA チームに連絡してください

BioProject の新規登録、もしくは選択

BioProject を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioProject になります。登録者などの情報は DRA Submission で入力した内容が引き写されます。

各項目の説明は BioProject Handbook を参照してください。

BioProject の新規登録

ゲノムをアセンブルするプロジェクトでは、アセンブリに対してユニークな Locus tag prefix が必要です。

[Project data type="Genome Sequencing" or "Metagenome"] AND [Capture="Whole"] AND [Objective="Sequence" or "Annotation" or "Assembly"] で Locus tag prefix 入力ボックスが現れます。

プレフィックスには3-12文字の英数字のみを含めることができます。先頭は英文字にします。数字は2文字目以降で使用できます (例: A1C)。 シンボル (-_*) を含めることはできません。プレフィックスとタグの値はアンダースコア '_' で区切ります (例: A1C_00001)。

WGS の登録のみで prefix を使用しない場合は入力欄を空にしてください。

prefix は NCBI が一括管理しています。プロジェクトを投稿する段階で、NCBI に prefix を予約しにいきます。予約済みの場合はエラーになるので、再度希望する prefix を入力して投稿します。

複数の prefix の取得を希望する場合は DRA チームに連絡します

Locus tag prefix の取得

最後の "OVERVIEW" で内容を確認したうえで [Submit BioProject] をクリックして投稿します。

BioProject の投稿

BioProject を投稿した後、Study では投稿したプロジェクトが選択されている状態になります。

投稿されたプロジェクトが選択される

Sample

[register sample(s)] でサンプルを新規に登録するか、もしくは、自身のアカウントで作成した BioSample 一覧から、該当するものを全て選択します。

一つのチェックボックスを選択し、続いて Shift キーを押しながら次のボックスをクリックすると、サンプルが範囲選択されます。 また、カラム上部のボックスにテキストを入力しサンプルを絞った状態で [Select filtered BioSamples] をクリックすると、フィルターされたサンプルが全て選択されます。

1 submission で登録できるサンプル数の上限は約 2,000 になります。

自身のアカウント以外で取得された BioSample を参照したい場合は DRA チームに連絡してください

BioSample の新規登録 or 選択

BioSample を新規登録する場合は左のタブから順番に内容を英語で入力していきます。二段目が BioSample になります。登録者などの情報は DRA Submission で入力した内容が引き写されます。

各項目の説明は BioSample Handbook を参照してください。

BioSample の新規登録

"SAMPLE TYPE" でサンプルの種類を選択します。

Sample type については BioSample Handbook を参照してください。

Sample type の選択

Sample type に応じた属性入力用テンプレートファイルをダウンロードします。

必須・任意・ユーザが定義した一連の属性でサンプルを記述することが、登録作業の中心になります。

BioSample 属性の説明。独自の属性を追加したい場合は、右端に属性名と値を追加します。

サンプル属性ファイルの記入例

ファイルはタブで区切られているので、エクセルなどの表計算ソフトで編集することができます。一行目には属性名が記載されています。* が必須属性です。

二行目以降に1行1サンプルで入力していきます。BioProject アクセッション番号が発行されていないプロジェクトの場合、bioproject_id には PSUB 番号を入力します。値がない属性には、適宜 "missing" や "not applicable" などを記入します。

Biological/Technical replicate は別々の BioSample として登録します。登録に必要なサンプル数は FAQ: 塩基配列登録にはいくつのサンプルが必要ですか? を参照してください。

サンプル属性テンプレートファイルのダウンロード

サンプル属性ファイルを選択して Continue をクリックすると validator がルールに基づいてアップロードされたファイルをチェックします。Error や Warning メッセージが表示された場合は必要に応じて内容を修正して再度アップロードします。Error が解消されない限り次のタブに進んで内容を submit することはできません。

Validation ルールとメッセージについては Validation rules ページをご覧ください。

BioSample の validation。この例では sample "genome bacteria strain C" の collection_date に将来の日付が記入されているエラーと geo_loc_name 中の国名と緯度経度が一致していない warning が表示されています。

最後の "OVERVIEW" で内容を確認したうえで投稿します。"ATTRIBUTES" で属性ファイルをダウンロードすることができます。

登録後は最新の属性ファイルをダウンロードすることができます。

BioSample の投稿

BioSample を投稿した後、Sample では投稿したサンプルが選択されている状態になります。

投稿されたサンプルが選択される

Experiment

初期状態では選択された BioSample と同数の Experiment と Run が自動生成され、それぞれの BioSample - Experiment - Run がリンクされています。Experiment/Run の自動生成は Experiment タブの初回表示時にのみ行われ、自動生成後に BioSample を選択し直した場合には自動生成されません。

BioProject - BioSample (1) - Experiment (1) - Run (1)
- BioSample (2) - Experiment (2) - Run (2)
- BioSample (3) - Experiment (3) - Run (3)

下の例では3つの Experiment が自動的に作成され、それぞれがユニークな BioSample を参照しています。

[Add new Experiment(s)] で Experiment の追加、右端の [Delete] で Experiment の削除をすることができます。Run から参照されている Experiment は削除することができません。

各 BioSample を参照している Experiment が自動的に作成される

タブ区切りテキストファイルでまとめて Experiment を作成することができます。まず [Save] で内容を保存し、Alias (例 test07-0040_Experiment_0001 ~ 0003) を確定します。Alias はアクセッション番号が発行されるまでのオブジェクトの仮の名称になります。

[Download TSV file] で内容をタブ区切りテキストファイルとしてダウンロードします。

Save して Alias を確定し、タブ区切りテキストファイルをダウンロード

エクセルなどの表計算ソフトでメタデータをまとめて作成することができます。

"Title" は空であれば、自動的に "[Sequencing Instrument Model] [paired end] sequencing of [BioSample ID]" というタイトル(例 "Illumina HiSeq 2000 paired end sequencing of SAMD00025741")が構築されます。独自の Title を付けたい場合は、"Title" 欄にテキストを入力します。

"BioSample Used" は "SSUB BioSample Submission ID" : "Sample name" (例 SSUB003746 : Genome bacteria strain A) で指定します。":" の両側の空白は無視されます。

Experiment テンプレートファイル

入力内容をタブ区切りテキストファイルとして保存し、選択したうえで [Upload TSV file] をクリックして読み込ませます。

Experiment をタブ区切りテキストファイルとしてアップロード

エクセルなどの表計算ソフト独自の形式ではなくタブ区切りテキストファイルとしてアップロードします。

Run

初期状態で選択された BioSample と同数の Experiment と Run が作成されており、それぞれの Run はユニークな Experiment を参照しています。

下の例では3つの Run が作成され、それぞれが作成された Experiment を参照しています。

[Add another Run(s)] で Run の追加、右端の [Delete] で Run の削除をすることができます。ファイルが紐づいている Run は削除することができません。

Save して Alias を確定

[Save] で Run の Alias を確定すると、内容をタブ区切りテキストファイルでまとめて編集できるようになります。

[Select data files for Run] で Run とアップロードしたデータファイルをリンクする画面に移動します。

ファイルと Run をリンクする画面へ移動

ディレクトリにアップロードされているファイル一覧が表示されます。ファイルが属すべき Run の Alias を "Run/Analysis contains files" で選択します。

続いて File typeMD5 Checksum を入力します。タブ区切りテキストファイルでまとめて内容を入力する場合、データファイルを区別するため Run に登録するファイルの左端の Run/Analysis に "Run" と入力します。

ペアリードが含まれるファイルは同じ Run に含めます。リード名からペアは自動で判定されます。Run に含まれているファイルは1つにまとめられます。

リード長が一定ではない fastq ファイルの場合、filetype には "generic_fastq" を選択します。

データファイルの属性を入力し Run に結び付ける

Analysis (任意) が不要な場合は [Enter / Update metadata] をクリックし、メタデータを投稿します。

DRA メタデータの投稿

メタデータの投稿後、データファイルを検証する処理を開始します。"Validate uploaded data files to finish this submission" をクリックします。

メタデータ投稿後、データファイルの検証に進む

Analysis (任意)

必要な数の Analysis を作成後、それぞれの Analysis について詳細を入力します。不要な Analysis は [Delete] ボタンで削除することができます。

[Select data files for Analysis] ボタンをクリックし、ファイルと Analysis を結び付ける画面に移動します。

Analysis の入力

データファイルの属性を入力し、Analysis とリンクさせます。タブ区切りテキストファイルでまとめて内容を入力する場合、Analysis に登録するファイルを区別するために左端の Run/Analysis に "Analysis" と入力します。

データファイルと Analysis のリンク

[Enter / Update metadata] をクリックして内容を投稿し、データファイルの検証に進みます。Analysis 用のファイルは md5 しかチェックされません。

XML でのメタデータ登録方法

メタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。 「technical read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」は メタデータを XML で登録、もしくは登録した XML を編集してアップロードします。

  • DRA 新規登録を作成し、データファイルをアップロードします。

  • Submission、Experiment、Run XML を作成します。アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合、以下のように記載します。

    <STUDY_REF>
      <IDENTIFIERS>
        <PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>
      </IDENTIFIERS>
    </STUDY_REF>
    
    <SAMPLE_DESCRIPTOR>
      <IDENTIFIERS>
        <PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>
      </IDENTIFIERS>
    </SAMPLE_DESCRIPTOR>
    
  • XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはできません。

    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml
    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml
    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml
    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml
    
  • チェックした XML をアップロードします。Submission、Experiment、Run、Analysis (任意) の XML ファイルを選択し、同時にアップロードします。

    アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイルを修正してください。

  • 作成した XML のアップロード

XML でのメタデータ編集方法

メタデータ作成ツールは technical read (アダプター、プライマーやバーコード配列) を記載することに対応していません。 「technical read を含む生データを登録する場合」や「DRA XML schema 中にはあるがツール中には無い項目をメタデータに記載する場合」は メタデータを XML で登録、もしくは登録した XML を編集してアップロードします。

  • メタデータ作成ツールでメタデータを作成し、投稿します。

  • "metadata_submitted" になった登録の Submission、Experiment、Run、Analysis (任意) を XML ファイルとしてダウンロードします。

  • ツールで作成したメタデータを XML としてダウンロード
  • XML を編集します。ファイル中のリードの構成を記載する SPOT_DESCRIPTOR については記入例を参考にしてください。 その他の項目については、DRA XML schema 中の説明を参照してください。

  • アクセッション番号が未発行の BioProject と BioSample を Experiment から参照する場合、以下のように記載します。

    <STUDY_REF>
      <IDENTIFIERS>
        <PRIMARY_ID label="BioProject Submission ID">PSUB004220</PRIMARY_ID>
      </IDENTIFIERS>
    </STUDY_REF>
    
    <SAMPLE_DESCRIPTOR>
      <IDENTIFIERS>
        <PRIMARY_ID label="BioSample Submission ID">SSUB003742 : sample name</PRIMARY_ID>
      </IDENTIFIERS>
    </SAMPLE_DESCRIPTOR>
    
  • XML を検証します。以下の Unix コマンドで XML をスキーマに対して検証することができます。エラーになる XML をアップロードすることはできません。

    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.submission.xsd?view=co test07-0018.Submission.xml
    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.experiment.xsd?view=co test07-0018.Experiment.xml
    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.run.xsd?view=co test07-0018.Run.xml
    xmllint --schema http://www.ncbi.nlm.nih.gov/viewvc/v1/trunk/sra/doc/SRA/SRA.analysis.xsd?view=co test07-0018.Analysis.xml
    
  • 編集した XML をアップロードします。Submission、Experiment、Run、Analysis (任意) の XML ファイルを選択し、同時にアップロードします。

    アップロードされた XML について「SRA xsd に対する妥当性」と「オブジェクト間の関係性」がチェックされます。エラーが発生した場合はファイルを修正してください。

  • 編集した XML のアップロード

データファイルの検証

転送したシークエンスデータファイルをアーカイブ用 SRA ファイルに変換する過程で MD5 値とシークエンスデータの整合性が検証されます。

“Data Files” に「Run と Analysis (任意) のメタデータに記載されているファイル名」と「データ受付サーバにアップロードされたファイル名と MD5 値」が一覧表示されます。

メタデータに記載されている全てのファイルがアップロードされている場合、[Validate data files] がクリックできる状態になります。

アップロードされているファイルのうちメタデータに記載されていないものは無視されます。

登録詳細画面中の [Validate data files] をクリックし、シークエンスデータファイルの検証処理を開始します。

シークエンスデータの検証処理を開始

検証処理は以下の順番で実行されます。

MD5 Check

メタデータに記載されている MD5 値と、実際のファイルの MD5 値とが一致するかチェックされ、一致しない場合はエラーが表示されます。 エラーの場合は [Enter / Update metadata] からメタデータを修正するか、ファイルを再アップロードしてください。

Data Check

シークエンスデータからアーカイブ用の SRA ファイルを作成します。この過程でシークエンスデータファイルのフォーマットとメタデータとの整合性が検証されます。 作成に失敗するとエラーが表示されます。エラーが発生した場合は [Stop validation] をクリックして検証処理を停止した後、メタデータを修正、もしくは、データファイルを再アップロードします。 ファイルサイズが大きい場合は検証処理に時間がかかります。

問題が無ければ登録のステータスが "submission_validated" になり、検証 されたファイルが別ディレクトリに移されます。

登録のステータスが "submission_validated" になると DRA スタッフが査定を始めます。 DRA スタッフから指示があるまで D-way を操作せずにお待ちください。

data_error になった場合

検証処理のいずれかのステップでエラーになると、ステータスが "data_error" になります。 [Stop validation] をクリックして検証処理を停止してから、メタデータの編集やファイルの再アップロードを行い、再度 [Validate data files] をクリックしてください。

FAQ: データファイルの validation エラーへの対処方法は?

検証処理を停止

ステータスが "metadata_submitted" に戻るので、必要に応じてメタデータの修正、データファイルの再アップロードを行います。

データを修正

アクセッション番号の発行

メタデータとシークエンスデータに問題がなければ、プレフィックス DR (Submission (DRA)、Experiment (DRX)、Run (DRR)、Analysis (DRZ)) のアクセッション番号が発行され、ステータスが “completed” になります。アクセッション番号は “Component” に表示されます。

また、Submission に記載されている登録者には、アクセッション番号がメールで通知されます。

DRA アクセッション番号

アーカイブ済み fastq/SRA ファイルの期間限定アクセス提供

登録者がアーカイブ済みデータファイルを確認できるようにするため、アクセッション番号が発行された Run の fastq/SRA ファイルはファイルサーバ (ftp-private.ddbj.nig.ac.jp) 上の登録者がアクセスできる場所にコピーされます。 ディスク容量の圧迫を防ぐため、コピーされたファイルは作成から一ヶ月後に自動的に削除されます。

ディスク空き容量の予期せぬ急減等により、コピーした fastq/SRA ファイルの一ヶ月以内の削除やコピー機能の一時停止が実施されることがあります。 できるだけ事前にウェブサイト等で周知いたしますが、直前になることもあり得ることをご了承ください。

  • (submitter's home)/report/dra/(DRA submission accession)/fastq/
  • (submitter's home)/report/dra/(DRA submission accession)/sra/

  • submitter/report/dra/DRA000001/fastq/DRR000001.fastq.bz2
  • submitter/report/dra/DRA000001/fastq/DRR000002.fastq.bz2
  • submitter/report/dra/DRA000001/fastq/DRR000002_1.fastq.bz2
  • submitter/report/dra/DRA000001/fastq/DRR000002_2.fastq.bz2
  • submitter/report/dra/DRA000001/sra/DRR000001.sra
  • submitter/report/dra/DRA000001/sra/DRR000002.sra

データ公開

登録データのデータベースへの取り込みが完了するとステータスが "confidential" になり、即日公開が指定されている場合以外は、以下の原則に則り、データが公開されるまで非公開で保持されます。

DRA では以下の場合にデータを公開しています。

オブジェクトは Submission 単位で公開されます。オブジェクトを異なる時期に公開したい場合は Submission を分けて登録してください。

  1. 登録者から公開依頼の連絡を受けた場合
  2. 登録者がアクセッション番号を公表した事を確認した場合。
    登録者以外の第三者が過失により他人のアクセッション番号を論文や学会等で公表した場合などは該当しません。
    公表とは、アクセッション番号を不特定多数の対象に知らせる行為 (学術論文、学会、インターネット、報道機関などを媒体とした発表) を指します。
  3. 公開予定日が到来した場合
  4. DRA Run (DRR) アクセッション番号を引用している DDBJ/EMBL-Bank/GenBank レコード (TSAWGS, CON など) が公開された場合

B, C または D の場合は登録者の了解がなくても例外なく公開します。D の場合、引用されている DRR 番号を含む DRA 登録全体が公開されます。

FAQ: BioProject/BioSample/塩基配列データの連動公開の仕組みは?

データが公開されると、数日間のうちに DRASearch で検索可能になり NCBI SRA にミラーリングされます。

DRA ファイルサーバに存在する fastq ファイル一覧: fastqlist

登録の更新

各データベースにおける更新方法

公開予定日の変更

公開予定日は最長で2年後まで指定でき、繰り返し更新することができます。Hold Date の [Change] をクリックし、公開予定日変更ページに移動し、予定日を変更します。

公開予定日の変更

データを即日公開する場合は "Release Now" をクリックします。作業した日の深夜に公開処理が実施され、ftp にデータファイルが公開され、数日以内に DRA 検索システムにインデックスされます。

メタデータの更新

[Enter / Update metadata] からメタデータを編集します。編集不可項目はブロックされています。 必要な編集が完了後、メタデータ作成ツールの [Submit/Update DRA metadata] ボタンをクリックし、更新内容を DRA データベースに反映させます。

関連する文献が公表された場合は、pubmed ID を含む文献情報を添えて BioProject チーム に追加を依頼します。

データファイルの追加

DRA では登録が完了した Run データファイルの追加・変更はできません。別の Submission で新しく Experiment-Run のセットを追加し、既存の BioProject や BioSample を参照することでデータを追加します。

Run と同様登録が完了した Analysis データファイルの追加・変更はできません。Analysis を差し替える場合は DRA チームにご連絡ください

D-way にログインし、[New submission] をクリックし、新規 DRA 登録を作成します。 作成した新規登録でデータを追加する対象の BioProject と BioSample を選択します。

  • 新たにサンプルを追加する場合は BioProject を共有し、新規登録で BioSample - Experiment - Run を追加します。
  • 既存のサンプルにデータを追加する場合は BioProject と BioSample を共有し、新規登録で Experiment - Run を追加します。

続いて DRA Experiment と Run タブで、Experiment、Run オブジェクトとデータファイルを追加します。

メタデータを submit し、ファイルの検証処理を実行します。追加された Experiment/Run オブジェクトに対してアクセッション番号が発行されます。

追加したデータに対応する BioProject 番号は同一ですが、Submission に対する DRA 番号は異なります。

サンプルの追加
サンプルの追加
サンプルへのデータ追加
サンプルへのデータ追加

登録が完了した DRA 登録にデータファイルを直接追加する場合は DRA チームに連絡してください

オブジェクトの削除

Experiment、Run や Analysis などのオブジェクトを削除する場合は DRA チームに連絡してください

補足: MD5 値

MD5 (Message Digest Algorithm 5) はハッシュ関数であり、与えられたファイルに対してハッシュ値 (MD5値、32桁の英数字) を出力します。ファイルが破損していると MD5 値が変化します。 DRA では、到着したファイルの MD5 値の一致をチェックすることで、ファイルの破損がないかどうか確認しています。

MD5 値の取得 (Linux)

ファイルの MD5 値を取得します。

$ md5sum file1 file2
9F6E6800CFAE7749EB6C486619254B9C file1
B636E0063E29709B6082F324C76D0911 file2

MD5 値の取得 (Mac OS X)

ファイルの MD5 値を取得します。

$ md5 file1 file2
9F6E6800CFAE7749EB6C486619254B9C file1
B636E0063E29709B6082F324C76D0911 file2

MD5 値の取得 (Windows)

Fsum Frontend (http://sourceforge.net/projects/fsumfe/) をインストールし、起動します。
まず、 "md5" にチェックを入れてください。

md5 を選択

[+] ボタンをクリックし、必要なシークエンスデータファイルを開いてください。同時に複数のファイルを選択することが可能です。

シークエンスデータファイルを選択

最後に、[Calculate hashes] ボタンをクリックしてください。各ファイルの MD5 値が表示されます。[Export] ボタンから、MD5 値の一覧表 (.html, .csv, .xml) を作成することができます。

MD5 値の計算を開始