Pipeline ヘルプ

Basic Analysis(Preprocessing/Mapping/de novo Assembly)

<注意事項>

  • 問題がございましたらpipeline_dev@ddbj.nig.ac.jpまでお問い合わせください。
  • Error終了したJOBは、順番にpipelineチームが原因を解析しております。
    対処策をメールで連絡させて頂く事がございます。
  • JOB投入数の制限は、外しました。
  • FAQはこちらです。
  • DDBJing 講習会(2013.7.4)資料

基礎解析部では以下の処理を行います。
それぞれ画面遷移が異なりますので表の「順」と「画面」でご確認ください。

Preprocessing

fastq形式ファイルのQSを各種グラフで参照できます。fastq形式ファイルの編集ができます。

<注意事項>
ファイルをアップロードする場合、paired-endでは、ファイル名を拡張子の直前で、_1, _2 として区別して下さい。( 例:test_data_1.fastq , test_data_2.fastq )

画面 項目
1 LOGIN User ID, Password
Registration form User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion
2 Selecting Query Files query files(fasta/fastq)
*FTP Uploadの場合、Registration of fasta/fastq files read layout(single-end/paired-end)選択, Instrument model選択, Study title
3 Set Perameters for Preprocessing query用fastqファイル編集(QSによるトリム及び、各種条件でのリード除去)
4 Run Confirmation Email address
5 Status - Preprocessing/Mapping/de novo Assembly 実行ジョブstatus確認
6 Detail view fastqファイル, QS Average(PDF), QS Count(PDF), QS Error(PDF)
+ fastqファイル
read編集(指定QS未満をトリム他、各種条件による選別)、片側のみのpaired-endリード削除
+ QS Average(PDF), QS Count(PDF)
編集前のQSの平均と標準偏差を計算、グラフ作成
+ QS Error(PDF)
編集後のリード位置毎の削除割合を計算、グラフ作成

Preprocessing処理後のファイルは、「Preprocessingタブ(下図黄色ハイライト)」でMapping/de novo Assemblyのクエリとして選択できるようになります。クエリファイルの先頭は、JOB番号です(下では3845がJOB番号)。

PreprocessingStart

Mapping(Reference Alignment)

画面 項目
1 LOGIN User ID, Password
Registration form User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion
2 Selecting Query Files query files(fasta/fastq)
*FTP Uploadの場合、Registration of fasta/fastq files read layout(single-end/paired-end)選択, Instrument model選択, Study title
3 Selecting Tools for Basic analysis of DDBJ ANNOTAION PIPELINE tool選択
4 Generating Query Sets from Query Read Files query用fastqファイルのreadファイル選択
5 Specifying Database of Reference Genome reference genomeのセット
6 Set Options tool毎のoption, 'uniq'選択, DNA polymorphism抽出方法選択
7 Run Confirmation Email address
8 Status - Preprocessing/Mapping/de novo Assembly 実行ジョブstatus確認
9 Detail view Error Rate, Coverage, Depth, Map ratio, コマンド毎の結果ファイル(samフォーマット)
+ ErrorRate (mapping, graph)
Percentage error of mapped sequence to reference sequence is calculated by read position.
+ Coverage (mapping, numeric data)
Sum of the length of all contigs/G,
where
G = Size (bp) of Reference Genome excluding "N" nucleotides
L = Sequence Length (bp),
N = # sequences.
+ Depth (mapping, numeric data)
The average of total sequence length (length of all sequence reads in a contig including gaps)/contig
Length excluding "N" nucleotides.
Reference: Lander ES, Waterman MS, Genomic mapping by fingerprinting random
clones: a mathematical analysis.
Genomics 1988, 2(3):231-239.
+ Map ratio (mapping, numeric data)
Number of mapped reads* / Number of reads
*: the number of reads, which were mapped in both ends.

de novo Assembly

画面 項目
1 LOGIN User ID, Password
Registration form User ID, Email address, First name, Last name, Institution with department, Country, Address, Postal/Zip code, Telephone number, Purpose of utilizaion
2 Selecting Query Files query files(fasta/fastq)
*FTP Uploadの場合、Registration of fasta/fastq files read layout(single-end/paired-end)選択, Instrument model選択, Study title
3 Selecting Tools for Basic analysis of DDBJ ANNOTAION PIPELINE tool選択
4 Generating Query Sets from Query Read Files query用fastqファイルのreadファイル選択
5 Set Options tool毎のoption, 'uniq'選択, DNA polymorphism抽出方法選択
6 Run Confirmation Email address
7 Status - Preprocessing/Mapping/de novo Assembly 実行ジョブstatus確認
8 Detail view Contig数, Total contig size, Maximum contig size, Minimum contig size, N50 contig size, コマンド毎の結果ファイル (samフォーマット)

LOGIN

  • ① システム利用に際してのアナウンスは、"twitter"で行ってます。
  • ② PipelineのIDをお持ちでない場合、「新規アカウント作成」で、登録画面へ遷移します。
  • ③ 試験的に使用したい方は「"guest"としてログイン」で、デモ画面を確認できます。
  • ④ "動作中JOBの確認"では、"guest"としてStatus画面へ遷移し、JOBの実行状況が確認できます。
  • ⑤ マニュアルおよびチュートリアルが用意されています。
  • ⑥ DRAアカウント登録はこちらのページです。 please see the page.
    Pipeline ログイン

Registration form

アカウント登録

<注意事項>

  • スーパーコンピュータの新システム移行に伴い、既にアカウントをお持ちの方も登録内容に追加項目があります。
  • ②に該当する項目をAdditional input(追加項目ページ)から入力します。
  • 登録が完了すると、User ID, Initial passwordが、Email address宛に自動配信されます。
  • ① Email addressの記入には十分注意して下さい。
  • ② 新システム移行に伴い、新たに追加した項目です。
  • ③ 全ての記入項目を確認後、登録します。
アカウント登録

パスワードの変更

  • ① passwordの変更は、各画面の左側メニュー (Change password) からいつでも行えます。
  • ② パスワードは確認の為、再入力します。
  • ③ 全ての記入項目を確認後、実行します。
パスワードの変更1
パスワードの変更2

Selecting Query Files

DRA(DDBJ Sequence Read Archive)に登録したデータ

  • ① Private DRA entryを選択します。
  • ② metadataを選択します。
  • ③ Queryにするファイルを選択します。

HTTPでのアップロード(新規、既存ファイル)

新規にHTTPアップロードする場合

  • ① HTTP Uploadを選択します。
  • ② ”ファイルを選択”をクリックしローカルからファイルを選択します。
  • ③ ”UPLOAD”をクリックします。
  • ④ ファイルアップロードが完了するとファイル名が表示されます。Aliasを入力できます。
  • ⑤ リロードすると表の中にファイルが表示されています。
新規にHTTPアップロードする場合

既にHTTPアップロードしたファイルから選択する場合

  • ① HTTP Uploadを選択します。
  • ② 既にアップロード済みのファイルから選択します。
既にHTTPアップロードしたファイルから選択する場合

FTPでのアップロード(新規、既存ファイル)

  • ① FTP Uploadを選択します。
  • ② 新規にファイルをアップロードする場合は、[Add new files]をクリックします。
  •   ----->Registration of fastq/fasta files画面へ遷移します。
  • ③ 既にFTPアップロードしたファイルを使用する時は、リストから選びます。
FTPでのアップロード

DRA databaseからDRA/ERA/SRA のFASTQファイルをインポート

  • ① Import public DRAを選択します。
  • Accession Numberを検索したい場合はこちらからできます。
  • ③ Accession Numberを入力します。
  • ④ Add my DRA entry をクリックします。
  • ⑤ インポートが終了すると、Statusが"queued"から"done"に変わります。(ページ再読み込み)
  • ⑥ Private DRA entryを選択して下さい。インポートしたデータが使用可能となっております。
  • *インポートが終了するとメールが届きます。
  • *Statusが"failed"の時は、再実行してください。
  • *Statusが"preparing"の時は、まだDRAにファイルが準備されておりません。後日、再実行してください。

Preprocessing処理での結果ファイル

  • ① Preprocessingを選択します。
  • ② Preprocessing結果ファイルは、「JOB番号_ファイル名_e」で表示されています。
  • (BWA Unmap結果ファイルは、「JOB番号_ファイル名.unmapped」で表示されています。
  • ③ 使用するファイルをチェックします。
Preprocessing処理での結果ファイル

Registration of fastq/fasta files

新規にFTPでFASTA/FASTQファイルをアップロードする方法

By FTP(Recommended)

1. Upload FASTA/FASTQ files
  • FTPクライアントによる転送方法については、こちらのページをご参照ください。
  • ② FTP clientをローカルPCにインストールし、DDBJのサーバーへFTP転送します。
  • ③ FTP setting内容です。(loginできない場合、パスワード変更を行って下さい。)
  • ④(FTPでの転送ができない場合、時間がかかりますがHTTPでの転送も可能です。)
  • ⑤ アップロードが終了したら、画面をリロードしてください。下のリストにファイルが追加されます。
  • ⑥ アップロードしたファイルをチェックし、次へ進みます。
新規にFTPでFASTA/FASTQファイルをアップロードする方法
2. Select a FASTA/FASTQ file(Uploadしたファイルの注釈付け1)
  • ① Read layoutでSingle-end又は、Paired-endを選択します。
  • ② read fileを選択します。(paired_endの場合はread1と対になるread2も選択)
  • ③ 次へ進みます。

<Single_endの場合>

Single_endの場合

<Paired_endの場合>

Paired_endの場合
3. Input a specification(Uploadしたファイルの注釈付け2)
  • ① シークエンサの機種を選択します。
  • ② Study titleを入力します。
  • ③ 登録(SUBMITをクリック)します。
    登録(SUBMITをクリック)
  • ④ 処理終了、Assembly/Mapplingをクリックすると、Selecting Query Files画面に遷移します。
    *Uploadしたファイルを使用して解析が可能になっています。

By HTTP(slower)

  • ① Browse and Uploadをクリックします。
  • ② ローカルPCからファイルを選択します。開始するとUpload経過が表示されます。
    ローカルPCからファイルを選択
  • ③ Uploadが完了したらページ再読み込みします。
    Uploadが完了
  • ④ ファイルがリストに追加されています。
    ファイルがリストに追加

Set Parameters for Preprocessing

Preprocessing処理によるFastq形式ファイルの編集

  • ① QVタイプを選択します。(参照:2.2 Encoding)
  • ② 5', 3'両端から、「指定QV」より大きい値の塩基が出現するまでトリムします。
    (トリム後のリード長が24bp以下の場合、そのリードを取り除きます。)
  • ③ 「指定QV」未満の塩基が、トリム後のリード長の「指定%」より多い場合は、そのリードを取り除きます。
  • ④ ペアードエンドリードの場合、片方が条件 ② 、③ により取り除かれた場合、もう一方も取り除かれます。
Preprocessing処理によるFastq形式ファイルの編集

Selecting Tools for Basic analysis of DDBJ ANNOTATION PIPELINE

解析ツールの選択

  • ① まず最初に処理 ( Reference Genome Mapping または、de novo Assembly ) を選択します。
  • ② ツールを選択します。
  • ③ この後でオプションの指定等あります。
    ツールのマニュアル(Help列:本マーク)をよくお読み下さい。
  • de novo Assembly の場合で、結果contigをqueryとして、続けて Mapping (BLAT使用)する場は、下の、Mapping Contigs by de novo Assemble to Reference Sequences.を選択します。
解析ツールの選択

Generating Query Sets from Query Read Files

クエリーファイルを一つのジョブで実行

  • ① 編集したいファイルにチェックを入れます。
  • ② confirmをクリックします。
    クエリーファイルを一つのジョブで実行
  • ③ 確認
  • ④ 次へ

クエリーファイルを複数のジョブで実行

  • ① 一つのジョブとして編集したいファイルにチェックを入れます。
  • ② confirmをクリックします。
  • ③ 確認
  • ④ 残りのファイルの内、別のジョブとして編集したいファイルにチェックを入れます。
  • ⑤ confirmをクリックします。
  • ⑥ クエリセット1、2ができます。(JOBが2つ投入)
  • ⑦ 次へ

Mate-pairedを使用してdenovoAssembly(SOAPdenovo,Velvetのみ)

  • ① 編集したいファイルにチェックを入れます。
  • ② 先にPair-Endをセットします。(その後Mate-Pairをセットします)
  • ③ 確認
  • ④ 次へ

Specifying Database of Reference Genome

Major genomeとして登録されているreferenceを使用する場合

  • ① Major genome setsを選択します。
  • ② Organisms,Genome setsを選択します。
  • ③ 染色体を選択します。
  • ④ 次へ

自分で登録したreference (User original sets) を使用する場合

  • ① User original setsを選択します。
  • ② Genome setsを選択します。
  • ③ 次へ

自分でreferenceを(User original setsへ)登録する場合

  • ① Download or upload referenceを選択します。
  •  
  • [アクセッション番号(INSD)からのダウンロードの場合]
    ② アクセッション番号(INSD)を入れ"LOAD"をクリックします。
  •  
  • [ローカルPCからのアップロードの場合]
    ② "ファイルを選択"をクリックし、ローカルPCからファイルを選択したら"UPLOAD"をクリックします。
  • ③ ファイルが表示されます。
  • ④ "CREATE DATASET"をクリックするとCreate Genome Dataset画面へ遷移します。
  • ⑤ genomeset の記述を変更できます。
  • ⑥ "CREATE GENOMESET"をクリックするとSpecifying Database of Reference Genome画面に戻ります。
  • ⑦ ダウンロードしたファイルが"User original sets"に追加され、選択した状態となっています。

Set Options

Setting for De Novo Assembly

  • ① オプションを指定します。
  • WGS配列データとしてDDBJに登録する場合は該当にチェックします。
  • ③ 次へ
    *ツールにより、画面は若干異なります。

Setting for Reference Genome Mapping

  • ① オプションを指定します。
  • ② 'Uniq'指定ができます。
  • ③ DNA polymorphism抽出方法を選択します。
  • WGS配列データとしてDDBJに登録する場合は該当にチェックします。
  • ⑤ 次へ
    *ツールにより、画面は若干異なります。

Run Confirmation

Mapping/de novo Assembly

  • ① ジョブが終了した際の連絡メールアドレスを記入します。
  • ② 内容を確認したら、"RUN"をクリックします。
  • ③ PopUp表示で再確認します。"OK"で実行。The reservation was completed.画面へ遷移します。
  • ④ "STATUS"をクリックすると、Mapping, de novo Assembly 各Status ページへ遷移します。

*guestユーザーでは、RUNボタンが表示されません

<Mapping (tool:bwa)の例>

<de novo Assembly (tool:velvet)の例>

Preprocessing

  • ① ジョブが終了した際の連絡メールアドレスを記入します。
  • ② 内容を確認します。
  • ③ "RUN"をクリックすると、The reservation was completed.画面へ遷移します。
  • ④ "STATUS"をクリックすると、Status-PreProcess画面へ遷移します。

Status-Mapping/de novo Assembly/PreProcess

ジョブ実行状況の確認

  • ① ”Show Only Your Own Job”をチェックします。
  • ② Reloadをクリックすると、ログインユーザーの結果のみ抽出されます。
  • ③ 実行したジョブのStatusが確認できます。( generating/running/complete/error )
  • ④ "View"クリックで、実行状況の詳細画面へ遷移します。
  • ⑤ 他のStatus画面へも遷移できます。

Detail view

Mapping

  • ① 統計結果が表示されます。
  • ② 実行ログの確認ができます。
  • ③ 各種コマンド結果ファイルがダウンロードできます。

統計結果のダウンロード

<Position errors>
+ ErrorRate (mapping, graph).
Percentage error of mapped sequence to reference sequence is calculated by read position.
<Map ratio>
+ Map ratio (mapping, numeric data)
Number of mapped reads* / Number of reads
*: the number of reads, which were mapped in both ends.
<Depth, Coverage>
+ Depth (mapping, numeric data)
he average of total sequence length (length of all sequence reads in a contig including gaps)/contig Length excluding "N" nucleotides.
Reference: Lander ES, Waterman MS, Genomic mapping by fingerprinting random clones: a mathematical analysis.
Genomics 1988, 2(3):231-239.
+ Coverage (mapping, numeric data)
Sum of the length of all contigs/G,
where
G = Size (bp) of Reference Genome excluding "N" nucleotides.
L = Sequence Length (bp),
N = # sequences.

de novo Assembly

  • ① 統計結果が表示されます。
  • ② 実行ログの確認ができます。
  • ③ 各種コマンド結果ファイルがダウンロードできます。

統計量のダウンロード

de novo Assembly statistics>

Preprocessing

  • ① 編集後Fastqファイル及び、各種グラフのダウンロードが行えます。
  • ② 実行ログの確認ができます。

編集済みファイル、各種グラフのダウンロード

<Fastq Download>
編集後のFastqファイルがダウンロードできます。
<QS Average(PDF)>
編集前のQS標準偏差
<QS Count(PDF)>
編集前のQS平均
<QS Error(PDF)>
編集後のリード位置毎の削除割合