最終更新日:2016.4.5.

Pipeline Tutorial

Basic Analysis(Preprocessing/Mapping/de novo Assembly)

<注意事項>
◆ 問題がございましたらpipeline_dev@ddbj.nig.ac.jpまでお問い合わせください。
◆ Error終了したJOBは、順番にpipelineチームが原因を解析しております。
   対処策をメールで連絡させて頂く事がございます。
◆ JOB投入数の制限は、外しました。
FAQはこちらです。
DDBJing 講習会(2013.7.4)資料

基礎解析部では以下の処理を行います。
それぞれ画面遷移が異なりますので表の「順」と「画面」でご確認ください。

1   Preprocessing
2   Mapping(Reference Alignment)
3   de novo Assembly

 

Preprocessing

 fastq形式ファイルのQSを各種グラフで参照できます。fastq形式ファイルの編集ができます。

<注意事項>
ファイルをアップロードする場合、paired-endでは、ファイル名を拡張子の直前で、_1, _2 として区別して下さい。( 例:test_data_1.fastq , test_data_2.fastq )

画面 項目
1 LOGIN User ID, Password
Registration form User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion
2 Selecting Query Files query files(fasta/fastq)
*FTP Uploadの場合、Registration of fasta/fastq files read layout(single-end/paired-end)選択, Instrument model選択, Study title
3 Set Perameters for Preprocessing query用fastqファイル編集(QSによるトリム及び、各種条件でのリード除去)
4 Run Confirmation Email address
5 Status - Preprocessing/Mapping/de novo Assembly 実行ジョブstatus確認
6 Detail view fastqファイル, QS Average(PDF), QS Count(PDF), QS Error(PDF)

 

+ fastqファイル
   read編集(指定QS未満をトリム他、各種条件による選別)、片側のみのpaired-endリード削除

+ QS Average(PDF), QS Count(PDF)
   編集前のQSの平均と標準偏差を計算、グラフ作成

+ QS Error(PDF)
   編集後のリード位置毎の削除割合を計算、グラフ作成

Preprocessing処理後のファイルは、「Preprocessingタブ(下図黄色ハイライト)」でMapping/de novo Assemblyのクエリとして選択できるようになります。クエリファイルの先頭は、JOB番号です(下では3845がJOB番号)。

 

Mapping(Reference Alignment)

画面 項目
1 LOGIN User ID, Password
Registration form User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion
2 Selecting Query Files query files(fasta/fastq)
*FTP Uploadの場合、Registration of fasta/fastq files read layout(single-end/paired-end)選択, Instrument model選択, Study title
3 Selecting Tools for Basic analysis of DDBJ ANNOTAION PIPELINE tool選択
4 Generating Query Sets from Query Read Files query用fastqファイルのreadファイル選択
5 Specifying Database of Reference Genome reference genomeのセット
6 Set Options tool毎のoption, 'uniq'選択, DNA polymorphism抽出方法選択
7 Run Confirmation Email address
8 Status - Preprocessing/Mapping/de novo Assembly 実行ジョブstatus確認
9 Detail view Error Rate, Coverage, Depth, Map ratio, コマンド毎の結果ファイル(samフォーマット)

 

+ ErrorRate (mapping, graph)
   Percentage error of mapped sequence to reference sequence is calculated by read position.

+ Coverage (mapping, numeric data)
   Sum of the length of all contigs/G,
   where
   G = Size (bp) of Reference Genome excluding "N" nucleotides
   L = Sequence Length (bp),
   N = # sequences.

+ Depth (mapping, numeric data)
   The average of total sequence length (length of all sequence reads in a contig including gaps)/contig
   Length excluding "N" nucleotides.
   Reference: Lander ES, Waterman MS, Genomic mapping by fingerprinting random
   clones: a mathematical analysis.
   Genomics 1988, 2(3):231-239.

+ Map ratio (mapping, numeric data)
   Number of mapped reads* / Number of reads
   *: the number of reads, which were mapped in both ends.

 

de novo Assembly

画面 項目
1 LOGIN User ID, Password
Registration form User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion
2 Selecting Query Files query files(fasta/fastq)
*FTP Uploadの場合、Registration of fasta/fastq files read layout(single-end/paired-end)選択, Instrument model選択, Study title
3 Selecting Tools for Basic analysis of DDBJ ANNOTAION PIPELINE tool選択
4 Generating Query Sets from Query Read Files query用fastqファイルのreadファイル選択
5 Set Options tool毎のoption, 'uniq'選択, DNA polymorphism抽出方法選択
6 Run Confirmation Email address
7 Status - Preprocessing/Mapping/de novo Assembly 実行ジョブstatus確認
8 Detail view Contig数, Total contig size, Maximum contig size, Minimum contig size, N50 contig size, コマンド毎の結果ファイル (samフォーマット)

 

LOGIN

 
①システム利用に際してのアナウンスは、"twitter"で行ってます。
②PipelineのIDをお持ちでない場合、「新規アカウント作成」で、登録画面へ遷移します。
③試験的に使用したい方は「"guest"としてログイン」で、デモ画面を確認できます。
④"動作中JOBの確認"では、"guest"としてStatus画面へ遷移し、JOBの実行状況が確認できます。
⑤マニュアルおよびチュートリアルが用意されています。

Japanese tutorial
English manual
DBCLS togotv Tutorial video 1 (JP) - Reference Genome Mapping
DBCLS togotv Tutorial video 2 (JP) - De novo Assembly

 
⑥DRAアカウント登録はこちらのページです。 please see the page.

 

Registration form

 

アカウント登録

<注意事項>
◆ スーパーコンピュータの新システム移行に伴い、
   既にアカウントをお持ちの方も登録内容に追加項目があります。
◆ ②に該当する項目をAdditional input(追加項目ページ)から入力します。

◆ 登録が完了すると、User ID, Initial passwordが、Email address宛に自動配信されます。

①Email addressの記入には十分注意して下さい。
②新システム移行に伴い、新たに追加した項目です。
③全ての記入項目を確認後、登録します。

 

パスワードの変更

 
①passwordの変更は、各画面の左側メニュー (Change password) からいつでも行えます。
②パスワードは確認の為、再入力します。
③全ての記入項目を確認後、実行します。

 

Selecting Query Files

 

クエリデータの選択方法

DRA(DDBJ Sequence Read Archive)に登録したデータ
HTTPでのアップロード(新規、既存ファイル)
FTPでのアップロード(新規、既存ファイル)
DRA databaseからDRA/ERA/SRA のFASTQファイルをインポート
Preprocessing処理での結果ファイル
BWA(mapping tool)でのUnmap結果ファイル

 

DRA(DDBJ Sequence Read Archive)に登録したデータ

①Private DRA entryを選択します。
②metadataを選択します。
③Queryにするファイルを選択します。

 

HTTPでのアップロード(新規、既存ファイル)

新規にHTTPアップロードする場合

①HTTP Uploadを選択します。
②”ファイルを選択”をクリックしローカルからファイルを選択します。
③”UPLOAD”をクリックします。
④ファイルアップロードが完了するとファイル名が表示されます。Aliasを入力できます。
⑤リロードすると表の中にファイルが表示されています。

 

既にHTTPアップロードしたファイルから選択する場合

①HTTP Uploadを選択します。
②既にアップロード済みのファイルから選択します。

 

FTPでのアップロード(新規、既存ファイル)

 
①FTP Uploadを選択します。
②新規にファイルをアップロードする場合は、[Add new files]をクリックします。
  ----->Registration of fastq/fasta files画面へ遷移します。

③既にFTPアップロードしたファイルを使用する時は、リストから選びます。

 

DRA databaseからDRA/ERA/SRA のFASTQファイルをインポート

 
①Import public DRAを選択します。
Accession Numberを検索したい場合はこちらからできます。
③Accession Numberを入力します。
④Add my DRA entry をクリックします。
⑤インポートが終了すると、Statusが"queued"から"done"に変わります。(ページ再読み込み)
⑥Private DRA entryを選択して下さい。インポートしたデータが使用可能となっております。

*インポートが終了するとメールが届きます。
*Statusが"failed"の時は、再実行してください。
*Statusが"preparing"の時は、まだDRAにファイルが準備されておりません。後日、再実行してください。

 

Preprocessing処理での結果ファイル

BWA(mapping tool)でのUnmap結果ファイル

 
①Preprocessingを選択します。
②Preprocessing結果ファイルは、「JOB番号_ファイル名_e」で表示されています。
(BWA Unmap結果ファイルは、「JOB番号_ファイル名.unmapped」で表示されています。
③使用するファイルをチェックします。

 

Registration of fastq/fasta files

 

新規にFTPでFASTA/FASTQファイルをアップロードする方法

 

By FTP(Recommended)

1. Upload FASTA/FASTQ files

FTPクライアントによる転送方法については、こちらのページをご参照ください。
②FTP clientをローカルPCにインストールし、DDBJのサーバーへFTP転送します。
③FTP setting内容です。(loginできない場合、パスワード変更を行って下さい。)
④(FTPでの転送ができない場合、時間がかかりますがHTTPでの転送も可能です。)
⑤アップロードが終了したら、画面をリロードしてください。下のリストにファイルが追加されます。
⑥アップロードしたファイルをチェックし、次へ進みます。

 

2. Select a FASTA/FASTQ file(Uploadしたファイルの注釈付け1)

①Read layoutでSingle-end又は、Paired-endを選択します。
②read fileを選択します。(paired_endの場合はread1と対になるread2も選択)
③次へ進みます。

<Single_endの場合>

<Paired_endの場合>

 

3. Input a specification(Uploadしたファイルの注釈付け2)

①シークエンサの機種を選択します。
②Study titleを入力します。
③登録(SUBMITをクリック)します。

④処理終了、Assembly/Mapplingをクリックすると、Selecting Query Files画面に遷移します。
*Uploadしたファイルを使用して解析が可能になっています。

 

By HTTP(slower)

①Browse and Uploadをクリックします。
②ローカルPCからファイルを選択します。開始するとUpload経過が表示されます。

③Uploadが完了したらページ再読み込みします。

④ファイルがリストに追加されています。

 

Set Parameters for Preprocessing

 

Preprocessing処理によるFastq形式ファイルの編集

 
①QVタイプを選択します。(参照:2.2 Encoding)
②5', 3'両端から、「指定QV」より大きい値の塩基が出現するまでトリムします。
(トリム後のリード長が24bp以下の場合、そのリードを取り除きます。)
③「指定QV」未満の塩基が、トリム後のリード長の「指定%」より多い場合は、そのリードを取り除きます。
④ペアードエンドリードの場合、片方が条件②、③により取り除かれた場合、もう一方も取り除かれます。

 

Selecting Tools for Basic analysis of DDBJ ANNOTATION PIPELINE

 

解析ツールの選択

①まず最初に処理 ( Reference Genome Mapping または、de novo Assembly ) を選択します。
②ツールを選択します。
③この後でオプションの指定等あります。
   ツールのマニュアル(Help列:本マーク)をよくお読み下さい。
de novo Assembly の場合で、結果contigをqueryとして、続けて Mapping (BLAT使用)する場は、
   下の、Mapping Contigs by de novo Assemble to Reference Sequences.を選択します。

 

Generating Query Sets from Query Read Files

 

Mapping/de novo Assembly処理でのクエリーファイル生成

クエリーファイルを一つのジョブで実行
クエリーファイルを複数のジョブで実行
Mate-pairedを使用してdenovoAssembly(SOAPdenovo,Velvetのみ)

 

クエリーファイルを一つのジョブで実行

 
①編集したいファイルにチェックを入れます。
②confirmをクリックします。

 
③確認
④次へ

 

クエリーファイルを複数のジョブで実行

 
①一つのジョブとして編集したいファイルにチェックを入れます。
②confirmをクリックします。

 
③確認

 
④残りのファイルの内、別のジョブとして編集したいファイルにチェックを入れます。
⑤confirmをクリックします。

 
⑥クエリセット1、2ができます。(JOBが2つ投入)
⑦次へ

 

Mate-pairedを使用してdenovoAssembly(SOAPdenovo,Velvetのみ)

 
①編集したいファイルにチェックを入れます。
②先にPair-Endをセットします。(その後Mate-Pairをセットします)

 
③確認
④次へ

 

Specifying Database of Reference Genome

 

Reference 配列を取得する方法を選択

Major genomeとして登録されているreferenceを使用する場合
自分で登録したreference (User original sets) を使用する場合
自分でreferenceを(User original setsへ)登録する場合

 

Major genomeとして登録されているreferenceを使用する場合

①Major genome setsを選択します。
②Organisms,Genome setsを選択します。
③染色体を選択します。
④次へ

 

自分で登録したreference (User original sets) を使用する場合

①User original setsを選択します。
②Genome setsを選択します。
③次へ

 

自分でreferenceを(User original setsへ)登録する場合

①Download or upload referenceを選択します。
 *アクセッション番号(INSD)からのダウンロードの場合
 ②アクセッション番号(INSD)を入れ"LOAD"をクリックします。
 *ローカルPCからのアップロードの場合
 ②"ファイルを選択"をクリックし、ローカルPCからファイルを選択したら"UPLOAD"をクリックします。
③ファイルが表示されます。
④"CREATE DATASET"をクリックするとCreate Genome Dataset画面へ遷移します。

⑤genomeset の記述を変更できます。
⑥"CREATE GENOMESET"をクリックするとSpecifying Database of Reference Genome画面に戻ります。

⑦ダウンロードしたファイルが"User original sets"に追加され、選択した状態となっています。

 

Set Options

 

選択した解析ツールのパラメータオプションを指定

Setting for De novo Assembly
Setting for Reference Genome Mapping

 

Setting for De Novo Assembly

①オプションを指定します。
WGS配列データとしてDDBJに登録する場合は該当にチェックします。
③次へ

*ツールにより、画面は若干異なります。

 

Setting for Reference Genome Mapping

①オプションを指定します。
②'Uniq'指定ができます。
③DNA polymorphism抽出方法を選択します。
WGS配列データとしてDDBJに登録する場合は該当にチェックします。
⑤次へ

*ツールにより、画面は若干異なります。

 

Run Confirmation

 

ジョブ実行前の最終確認

Mapping/de novo Assembly
Preprocessing

 

Mapping/de novo Assembly

①ジョブが終了した際の連絡メールアドレスを記入します。
②内容を確認したら、"RUN"をクリックします。
③PopUp表示で再確認します。"OK"で実行。The reservation was completed.画面へ遷移します。
④"STATUS"をクリックすると、Mapping, de novo Assembly 各Status ページへ遷移します。

*guestユーザーでは、RUNボタンが表示されません

<Mapping (tool:bwa)の例>

 
<de novo Assembly (tool:velvet)の例>

 

Preprocessing

①ジョブが終了した際の連絡メールアドレスを記入します。
②内容を確認します。
③"RUN"をクリックすると、The reservation was completed.画面へ遷移します。
④"STATUS"をクリックすると、Status-PreProcess画面へ遷移します。

 

Status-Mapping/de novo Assembly/PreProcess

 

ジョブ実行状況の確認

①”Show Only Your Own Job”をチェックします。
②Reloadをクリックすると、ログインユーザーの結果のみ抽出されます。
③実行したジョブのStatusが確認できます。( generating/running/complete/error )
④"View"クリックで、実行状況の詳細画面へ遷移します。
⑤他のStatus画面へも遷移できます。

 

Detail view

 

結果ファイルのダウンロード

Mapping
de novo Assembly
Preprocessing

 

Mapping

①統計結果が表示されます。
②実行ログの確認ができます。
③各種コマンド結果ファイルがダウンロードできます。

DetailViewMapping5_1

 
統計結果のダウンロード

 <Position errors>

 
+ ErrorRate (mapping, graph).

 
Percentage error of mapped sequence to reference sequence is calculated by read position.

 
<Map ratio>

 
+ Map ratio (mapping, numeric data)

 
Number of mapped reads* / Number of reads

*: the number of reads, which were mapped in both ends.

 
<Depth, Coverage>

 
+ Depth (mapping, numeric data)

 
The average of total sequence length (length of all sequence reads in a contig including gaps)/contig Length excluding "N" nucleotides.
Reference: Lander ES, Waterman MS, Genomic mapping by fingerprinting random clones: a mathematical analysis.
Genomics 1988, 2(3):231-239.

 
+ Coverage (mapping, numeric data)

 
Sum of the length of all contigs/G,
where
G = Size (bp) of Reference Genome excluding "N" nucleotides.
L = Sequence Length (bp),
N = # sequences.

 

de novo Assembly

①統計結果が表示されます。
②実行ログの確認ができます。
③各種コマンド結果ファイルがダウンロードできます。

 
統計量のダウンロード

 de novo Assembly statistics>

 

Preprocessing

①編集後Fastqファイル及び、各種グラフのダウンロードが行えます。
②実行ログの確認ができます。

 
編集済みファイル、各種グラフのダウンロード

 <Fastq Download>

 編集後のFastqファイルがダウンロードできます。

 <QS Average(PDF)>

 編集前のQS標準偏差

 <QS Count(PDF)>

 編集前のQS平均

 <QS Error(PDF)>

 編集後のリード位置毎の削除割合

ページの先頭へ戻る