Basic Analysis(Preprocessing/Mapping/de novo Assembly)
<注意事項>
◆ 遺伝研の新スパコン(2012/2~)へのシステム移行により、バグが出やすくなっています。
問題がございましたらpipeline_dev@g.nig.ac.jpまでお問い合わせください。
◆ Error終了したJOBは、順番にpipelineチームが原因を解析しております。
対処策をメールで連絡させて頂く事がございます。
◆ JOB投入数の制限は、外しました。
基礎解析部では以下の処理を行います。
それぞれ画面遷移が異なりますので表の「順」と「画面」でご確認ください。
Preprocessing
fastq形式ファイルのQSを各種グラフで参照できます。fastq形式ファイルの編集ができます。
<注意事項>
ファイルをアップロードする場合、paired-endでは、ファイル名を拡張子の直前で、_1, _2 として区別して下さい。( 例:test_data_1.fastq , test_data_2.fastq )
| 順 | 画面 | 項目 |
| 1 | LOGIN | User ID, Password |
| Registration form | User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion |
|
| 2 | Selecting Query Files | query files(fasta/fastq) |
| *FTP Uploadの場合、Registration of fasta/fastq files | read layout(single-end/paired-end)選択, Instrument model選択, Study title |
|
| 3 | Set Perameters for Preprocessing | query用fastqファイル編集(QSによるトリム及び、各種条件でのリード除去) |
| 4 | Run Confirmation | Email address |
| 5 | Status - Preprocessing/Mapping/de novo Assembly | 実行ジョブstatus確認 |
| 6 | Detail view | fastqファイル, QS Average(PDF), QS Count(PDF), QS Error(PDF) |
+ fastqファイル
read編集(指定QS未満をトリム他、各種条件による選別)、片側のみのpaired-endリード削除
+ QS Average(PDF), QS Count(PDF)
編集前のQSの平均と標準偏差を計算、グラフ作成
+ QS Error(PDF)
編集後のリード位置毎の削除割合を計算、グラフ作成
Preprocessing処理後のファイルは、「Preprocessingタブ(下図黄色ハイライト)」でMapping/de novo Assemblyのクエリとして選択できるようになります。クエリファイルの先頭は、JOB番号です(下では3845がJOB番号)。
Mapping(Reference Alignment)
| 順 | 画面 | 項目 |
| 1 | LOGIN | User ID, Password |
| Registration form | User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion |
|
| 2 | Selecting Query Files | query files(fasta/fastq) |
| *FTP Uploadの場合、Registration of fasta/fastq files | read layout(single-end/paired-end)選択, Instrument model選択, Study title |
|
| 3 | Selecting Tools for Basic analysis of DDBJ ANNOTAION PIPELINE | tool選択 |
| 4 | Generating Query Sets from Query Read Files | query用fastqファイルのreadファイル選択 |
| 5 | Specifying Database of Reference Genome | reference genomeのセット |
| 6 | Set Options | tool毎のoption, 'uniq'選択, DNA polymorphism抽出方法選択 |
| 7 | Run Confirmation | Email address |
| 8 | Status - Preprocessing/Mapping/de novo Assembly | 実行ジョブstatus確認 |
| 9 | Detail view | Error Rate, Coverage, Depth, Map ratio, コマンド毎の結果ファイル(samフォーマット) |
+ ErrorRate (mapping, graph)
Percentage error of mapped sequence to reference sequence is calculated by read position.
+ Coverage (mapping, numeric data)
Sum of the length of all contigs/G,
where
G = Size (bp) of Reference Genome excluding "N" nucleotides
L = Sequence Length (bp),
N = # sequences.
+ Depth (mapping, numeric data)
The average of total sequence length (length of all sequence reads in a contig including gaps)/contig
Length excluding "N" nucleotides.
Reference: Lander ES, Waterman MS, Genomic mapping by fingerprinting random
clones: a mathematical analysis.
Genomics 1988, 2(3):231-239.
+ Map ratio (mapping, numeric data)
Number of mapped reads* / Number of reads
*: the number of reads, which were mapped in both ends.
de novo Assembly
| 順 | 画面 | 項目 |
| 1 | LOGIN | User ID, Password |
| Registration form | User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion |
|
| 2 | Selecting Query Files | query files(fasta/fastq) |
| *FTP Uploadの場合、Registration of fasta/fastq files | read layout(single-end/paired-end)選択, Instrument model選択, Study title |
|
| 3 | Selecting Tools for Basic analysis of DDBJ ANNOTAION PIPELINE | tool選択 |
| 4 | Generating Query Sets from Query Read Files | query用fastqファイルのreadファイル選択 |
| 5 | Set Options | tool毎のoption, 'uniq'選択, DNA polymorphism抽出方法選択 |
| 6 | Run Confirmation | Email address |
| 7 | Status - Preprocessing/Mapping/de novo Assembly | 実行ジョブstatus確認 |
| 8 | Detail view | Contig数, Total contig size, Maximum contig size, Minimum contig size, N50 contig size, コマンド毎の結果ファイル (samフォーマット) |
LOGIN
①システム利用に際してのアナウンスは、"twitter"で行ってます。
②PipelineのIDをお持ちでない場合、「新規アカウント作成」で、登録画面へ遷移します。
③試験的に使用したい方は「"guest"としてログイン」で、デモ画面を確認できます。
④"動作中JOBの確認"では、"guest"としてStatus画面へ遷移し、JOBの実行状況が確認できます。
⑤マニュアルおよびチュートリアルが用意されています。
- Japanese tutorial
- English manual
- DBCLS togotv Tutorial video 1 (JP) - Reference Genome Mapping
- DBCLS togotv Tutorial video 2 (JP) - De novo Assembly
⑥DRAアカウント登録はこちらのページです。 please see the page.
Registration form
アカウント登録
<注意事項>
◆ スーパーコンピュータの新システム移行に伴い、
既にアカウントをお持ちの方も登録内容に追加項目があります。
◆ ②に該当する項目をAdditional input(追加項目ページ)から入力します。
◆ 登録が完了すると、User ID, Initial passwordが、Email address宛に自動配信されます。
①Email addressの記入には十分注意して下さい。
②新システム移行に伴い、新たに追加した項目です。
③全ての記入項目を確認後、登録します。
パスワードの変更
①passwordの変更は、各画面の左側メニュー (Change password) からいつでも行えます。
②パスワードは確認の為、再入力します。
③全ての記入項目を確認後、実行します。
Selecting Query Files
クエリデータの選択方法
- DRA(DDBJ Sequence Read Archive)に登録したデータ
- HTTPでのアップロード(新規、既存ファイル)
- FTPでのアップロード(新規、既存ファイル)
- DRA databaseからDRA/ERA/SRA のFASTQファイルをインポート
- Preprocessing処理での結果ファイル
- BWA(mapping tool)でのUnmap結果ファイル
DRA(DDBJ Sequence Read Archive)に登録したデータ
①Private DRA entryを選択します。
②metadataを選択します。
③Queryにするファイルを選択します。
HTTPでのアップロード(新規、既存ファイル)
新規にHTTPアップロードする場合
①HTTP Uploadを選択します。
②”ファイルを選択”をクリックしローカルからファイルを選択します。
③”UPLOAD”をクリックします。
④ファイルアップロードが完了するとファイル名が表示されます。Aliasを入力できます。
⑤リロードすると表の中にファイルが表示されています。
既にHTTPアップロードしたファイルから選択する場合
①HTTP Uploadを選択します。
②既にアップロード済みのファイルから選択します。
FTPでのアップロード(新規、既存ファイル)
①FTP Uploadを選択します。
②新規にファイルをアップロードする場合は、[Add new files]をクリックします。
----->Registration of fastq/fasta files画面へ遷移します。
③既にFTPアップロードしたファイルを使用する時は、リストから選びます。
DRA databaseからDRA/ERA/SRA のFASTQファイルをインポート
①Import public DRAを選択します。
②Accession Numberを検索したい場合はこちらからできます。
③Accession Numberを入力します。
④Add my DRA entry をクリックします。
⑤インポートが終了すると、Statusが"queued"から"done"に変わります。(ページ再読み込み)
⑥Private DRA entryを選択して下さい。インポートしたデータが使用可能となっております。
*インポートが終了するとメールが届きます。
*Statusが"failed"の時は、再実行してください。
*Statusが"preparing"の時は、まだDRAにファイルが準備されておりません。後日、再実行してください。
Preprocessing処理での結果ファイル
BWA(mapping tool)でのUnmap結果ファイル
①Preprocessingを選択します。
②Preprocessing結果ファイルは、「JOB番号_ファイル名_e」で表示されています。
(BWA Unmap結果ファイルは、「JOB番号_ファイル名.unmapped」で表示されています。
③使用するファイルをチェックします。
Registration of fastq/fasta files
新規にFTPでFASTA/FASTQファイルをアップロードする方法
By FTP(Recommended)
1. Upload FASTA/FASTQ files
①FTPクライアントによる転送方法については、こちらのページをご参照ください。
②FTP clientをローカルPCにインストールし、DDBJのサーバーへFTP転送します。
③FTP setting内容です。(loginできない場合、パスワード変更を行って下さい。)
④(FTPでの転送ができない場合、時間がかかりますがHTTPでの転送も可能です。)
⑤アップロードが終了したら、画面をリロードしてください。下のリストにファイルが追加されます。
⑥アップロードしたファイルをチェックし、次へ進みます。
2. Select a FASTA/FASTQ file(Uploadしたファイルの注釈付け1)
①Read layoutでSingle-end又は、Paired-endを選択します。
②read fileを選択します。(paired_endの場合はread1と対になるread2も選択)
③次へ進みます。
<Single_endの場合>
<Paired_endの場合>
3. Input a specification(Uploadしたファイルの注釈付け2)
①シークエンサの機種を選択します。
②Study titleを入力します。
③登録(SUBMITをクリック)します。
④処理終了、Assembly/Mapplingをクリックすると、Selecting Query Files画面に遷移します。
*Uploadしたファイルを使用して解析が可能になっています。
By HTTP(slower)
①Browse and Uploadをクリックします。
②ローカルPCからファイルを選択します。開始するとUpload経過が表示されます。
③Uploadが完了したらページ再読み込みします。
④ファイルがリストに追加されています。
Set Parameters for Preprocessing
Preprocessing処理によるFastq形式ファイルの編集
①QVタイプを選択します。(参照:2.2 Encoding)
②5', 3'両端から、「指定QV」より大きい値の塩基が出現するまでトリムします。
(トリム後のリード長が24bp以下の場合、そのリードを取り除きます。)
③「指定QV」未満の塩基が、トリム後のリード長の「指定%」より多い場合は、そのリードを取り除きます。
④ペアードエンドリードの場合、片方が条件②、③により取り除かれた場合、もう一方も取り除かれます。
Selecting Tools for Basic analysis of DDBJ ANNOTATION PIPELINE
解析ツールの選択
①まず最初に処理 ( Reference Genome Mapping または、de novo Assembly ) を選択します。
②ツールを選択します。
③この後でオプションの指定等あります。
ツールのマニュアル(Help列:本マーク)をよくお読み下さい。
④de novo Assembly の場合で、結果contigをqueryとして、続けて Mapping (BLAT使用)する場は、
下の、Mapping Contigs by de novo Assemble to Reference Sequences.を選択します。
Generating Query Sets from Query Read Files
Mapping/de novo Assembly処理でのクエリーファイル生成
クエリーファイルを一つのジョブで実行
①編集したいファイルにチェックを入れます。
②confirmをクリックします。
③確認
④次へ
クエリーファイルを複数のジョブで実行
①一つのジョブとして編集したいファイルにチェックを入れます。
②confirmをクリックします。
③確認
④残りのファイルの内、別のジョブとして編集したいファイルにチェックを入れます。
⑤confirmをクリックします。
⑥クエリセット1、2ができます。(JOBが2つ投入)
⑦次へ
Mate-pairedを使用してdenovoAssembly(SOAPdenovo,Velvetのみ)
①編集したいファイルにチェックを入れます。
②先にPair-Endをセットします。(その後Mate-Pairをセットします)
③確認
④次へ
Specifying Database of Reference Genome
Reference 配列を取得する方法を選択
- Major genomeとして登録されているreferenceを使用する場合
- 自分で登録したreference (User original sets) を使用する場合
- 自分でreferenceを(User original setsへ)登録する場合
Major genomeとして登録されているreferenceを使用する場合
①Major genome setsを選択します。
②Organisms,Genome setsを選択します。
③染色体を選択します。
④次へ
自分で登録したreference (User original sets) を使用する場合
①User original setsを選択します。
②Genome setsを選択します。
③次へ
自分でreferenceを(User original setsへ)登録する場合
①Download or upload referenceを選択します。
*アクセッション番号(INSD)からのダウンロードの場合
②アクセッション番号(INSD)を入れ"LOAD"をクリックします。
*ローカルPCからのアップロードの場合
②"ファイルを選択"をクリックし、ローカルPCからファイルを選択したら"UPLOAD"をクリックします。
③ファイルが表示されます。
④"CREATE DATASET"をクリックするとCreate Genome Dataset画面へ遷移します。
⑤genomeset の記述を変更できます。
⑥"CREATE GENOMESET"をクリックするとSpecifying Database of Reference Genome画面に戻ります。
⑦ダウンロードしたファイルが"User original sets"に追加され、選択した状態となっています。
Set Options
選択した解析ツールのパラメータオプションを指定
Setting for De Novo Assembly
①オプションを指定します。
②WGS配列データとしてDDBJに登録する場合は該当にチェックします。
③次へ
*ツールにより、画面は若干異なります。
Setting for Reference Genome Mapping
①オプションを指定します。
②'Uniq'指定ができます。
③DNA polymorphism抽出方法を選択します。
④WGS配列データとしてDDBJに登録する場合は該当にチェックします。
⑤次へ
*ツールにより、画面は若干異なります。
Run Confirmation
ジョブ実行前の最終確認
Mapping/de novo Assembly
①ジョブが終了した際の連絡メールアドレスを記入します。
②内容を確認したら、"RUN"をクリックします。
③PopUp表示で再確認します。"OK"で実行。The reservation was completed.画面へ遷移します。
④"STATUS"をクリックすると、Mapping, de novo Assembly 各Status ページへ遷移します。
*guestユーザーでは、RUNボタンが表示されません
<Mapping (tool:bwa)の例>
<de novo Assembly (tool:velvet)の例>
Preprocessing
①ジョブが終了した際の連絡メールアドレスを記入します。
②内容を確認します。
③"RUN"をクリックすると、The reservation was completed.画面へ遷移します。
④"STATUS"をクリックすると、Status-PreProcess画面へ遷移します。
Status-Mapping/de novo Assembly/PreProcess
ジョブ実行状況の確認
①”Show Only Your Own Job”をチェックします。
②Reloadをクリックすると、ログインユーザーの結果のみ抽出されます。
③実行したジョブのStatusが確認できます。( generating/running/complete/error )
④"View"クリックで、実行状況の詳細画面へ遷移します。
⑤他のStatus画面へも遷移できます。
Detail view
結果ファイルのダウンロード
Mapping
①統計量のダウンロードが行えます。
②実行ログの確認ができます。
③結果のダウンロードが行えます。
統計量のダウンロード
<Position errors>
+ ErrorRate (mapping, graph).
Percentage error of mapped sequence to reference sequence is calculated by read position.
<Map ratio>
+ Map ratio (mapping, numeric data)
Number of mapped reads* / Number of reads
*: the number of reads, which were mapped in both ends.
<Depth, Coverage>
+ Depth (mapping, numeric data)
The average of total sequence length (length of all sequence reads in a contig including gaps)/contig Length excluding "N" nucleotides.
Reference: Lander ES, Waterman MS, Genomic mapping by fingerprinting random clones: a mathematical analysis.
Genomics 1988, 2(3):231-239.
+ Coverage (mapping, numeric data)
Sum of the length of all contigs/G,
where
G = Size (bp) of Reference Genome excluding "N" nucleotides.
L = Sequence Length (bp),
N = # sequences.
de novo Assembly
①統計量のダウンロードが行えます。
②実行ログの確認ができます。
③結果のダウンロードが行えます。
統計量のダウンロード
<de novo Assembly statistics>
Preprocessing
①編集後Fastqファイル及び、各種グラフのダウンロードが行えます。
②実行ログの確認ができます。
編集済みファイル、各種グラフのダウンロード
<Fastq Download>
編集後のFastqファイルがダウンロードできます。
<QS Average(PDF)>
編集前のQS標準偏差
<QS Count(PDF)>
編集前のQS平均
<QS Error(PDF)>
編集後のリード位置毎の削除割合


















































