ClustalW ヘルプ

ClustalW は,DNA配列やタンパク質配列の多重整列のためのツールです。
DDBJ では,通常版(最新バージョン)と DDBJ拡張版(Version 1.83, Modified by Dr. Kirill Kryukov) を提供しています。

 
 

Version

"2.1" (ClustalW の最新版),または"1.83"(Dr. Kirill Kryukov 改訂のDDBJ オリジナル) の何れかを選択してください。 デフォルトは "2.1" です。
"1.83" を選択すると、系統樹作成・BOOTSTRAP の詳細なオプションの指定が可能になります。
 
 

配列

配列の種類の選択

DNA/Protein の何れかを選択すると,それぞれの詳細なオプションを選択できます。デフォルトは Protein です。

配列の入力

データを直接テキストボックスに入力するか,データを格納したファイルを指定(ファイルアップロード機能)します。各配列にはタイトル名が必要です。

利用可能な配列データの記述形式
NBRF-PIR
EMBL-SWISSPROT
Pearson (Fasta)
Clustal (*.aln)
GCG-MSF (Pileup)
GCG9-RSF
GDE

配列の入力例(FASTA 形式)

>my_query_sequence_1
CACCCTCTCTTCACTGGAAAGGACACCATGAGCACGGAAAGCATGATCCAGGACGTGGAA
GCTGGCCGAGGAGGCGCTCCCCAGGAAGACAGCAGGGCCCCAGGGCTCCAGGCGGTGCTG
GTTCCTCAGCCTCTTCTCCTTCCTGCTCGTGGCAGGCGCCGCCAC
>my_query_sequence_2
GGCCAGGGCACCCAGTCTGAGAACAGCTGCACCCGCTTCCCAGGCAACCTGCCTCACATG
CTTCGAGACCTCCGAGATGCCTTCAGCAGAGTGAAGACTTTCTTTCAAATGAAGGATCAG
CTGGACAACATATTGTTAAAGGAGTCCTTGCTGGAGGACTTTAAG
>my_query_sequence_3
ATGGGTCTCACCTCCCAACTGCTTCCCCCTCTGTTCTTCCTGCTAGCATGTGCCGGCAAC
TTTGCCCACGGACACAACTGCCATATCGCCTTACGGGAGATCATCGAAACTCTGAACAGC
CTCACAGAGCAGAAGACTCTGTGCACCAAGTTGACCATAACGGAC

 
タイトル名は、">" 以降の文字列から、最初のスペース以前の文字列までです。スペースが無い場合は、">" 以降の文字列から行末までとなります。
同一タイトル名の配列が複数存在する場合はエラーとなります。
 
 

Pairwise Alignment のパラメータの指定

Alignment のタイプ

アライメントに使用するアルゴリズムを選択します。デフォルトは Slow です。

表示
slow 精度の高い alignment の作成に適していますが処理速度が遅いため,比較的短い配列の解析用です
fast データ処理速度に優れたアルゴリズムであり,長大な配列を解析する場合に適しています

Slow/Fast Pairwise Alignment のオプション

DNA /Protein Weight Matrix
塩基置換行列表/アミノ酸置換行列表を指定します。デフォルトは Protein の場合は Gonnet , DNA の場合は IUB です。
Protein Weight Matrix
Gonnet このmatrix は Dayhoff と同じ手法で導かれたものですが,(Dayhoffマトリックスが作成されたときに用いられたデータセットと比較して)はるかに大きなデータセットの比較に基づいて作成され,配列間で相同なアミノ酸をより整列しやすくされています。
BLOSUM 相同性検索を行なう際に最も広く用いられています。
PAM この行列は 1970 年代後半以来,極めて広く使われています。Dayhoff's matrix とも呼ばれています。
ID 同一のアミノ酸には 1 を,異なるアミノ酸には 0 を与えます。
DNA Weight Matrix
IUB プログラム BESTFIT で塩基配列の比較においてデフォルトで用いられているスコア行列で,XやNはIUBの曖昧表記に対してマッチしているとして扱われます。マッチのスコアは1.9,ミスマッチのスコアは0です。
ClustalW 以前ClustalWで使用されていたスコア行列です。
マッチのスコアは1.0,ミスマッチのスコアは0です。IUBの曖昧表記に対するマッチのスコアは0です。  
GAP OPEN
Gap (挿入・欠失)開始時の Gap penalty を指定します。デフォルトは 10.0 です。
GAP EXTENSION
Gap (挿入)継続時の Gap penalty を指定します。デフォルトは 0.1です。
KTUP (WORD SIZE)
Fast algorithm で計算する際の word size を指定します。デフォルトは 1 です。
WINDOW LENGTH
Fast algorithm で計算する際の window size を指定します。デフォルトは 5です。
SCORE TYPE
スコアの表示方法を指定します。デフォルトは percent です。percent の値は, absolute 出力値を配列長(比較する2配列のうち, 配列長が大きい値)で割り, 100を乗じた値です。
TOPDIAG
Fast algorithm で計算する際の top diagonals の数を指定します。デフォルトは 5です。
PAIRGAP
Fast algorithm で計算する際の gap penalty を指定します。デフォルトは 3です。

 
 

Multiple Alignment のパラメータの指定

alignment のオプションを指定します

DNA /Protein Weight Matrix
塩基置換行列表/アミノ酸置換行列表を指定します。デフォルトは Protein の場合は Gonnet , DNA の場合は IUB です。
Protein Weight Matrix 
Gonnet このmatrix は Dayhoff と同じ手法で導かれたものですが,より大きいサイズのデータセットを元にした新しい手法で,Dayhoff よりも感度が良いとされています。
BLOSUM 相同性検索を行なう際に最も広く用いられています。
PAM この行列は 1970 年代後半以来,極めて広く使われています。Dayhoff's matrix とも呼ばれています。
ID 同一のアミノ酸には 1 を,異なるアミノ酸には 0 を与えます。
DNA Weight Matrix 
IUB プログラムBESTFITで塩基配列の比較においてデフォルト
で用いられているスコア行列で,XやNはIUBの曖昧表記に対してマッチしているとして扱わます。マッチのスコアは1.9,ミスマッチのスコアは0 です。
ClustalW 以前ClustalWで使用されていたスコア行列です。
マッチのスコアは1.0,ミスマッチのスコアは0です。IUBの曖昧表記に対するマッチのスコアは0です。
GAP OPEN
Gap 開始時の Gap penalty を指定します。デフォルトは 10.0
GAP EXTENSION
Gap 継続時の Gap penalty を指定します。デフォルトは 0.2です。
GAP DISTANCES
Gap間の距離が指定された値より小さいときにpenaltyをかけます。デフォルトは5です。
NO END GAPS
端のGapについてはGAP DISTANCESのpenaltyをかけないようにします。デフォルトはnoです。
表示
no penalty をかけない
yes penalty をかける
ITERATION
Iteration アルゴリズムで アライメントを改良するかどうかを指定します。デフォルトは none です。
表示  
none iteration を行いません
tree アライメントの各段階でiteration を行います
alignment 最終的に得られたアライメントにのみ iteration を行います
NUMITER< /dt>

反復回数の最大値を示します。デフォルトは1です。
CLUSTERING
Clustering のタイプを指定します。デフォルトは NJ です。
表示  
NJ Neighbour-joining (Saitou and Nei 1987) ) 法
UPGMA Unweighted Pair-Group Method with Arithmatic mean) 法

 

出力のオプションを指定します

Format
Multiple alignment の出力形式を指定します。デフォルトは Aln w/numbersです。
表示  
Aln w/numbers 塩基/アミノ残基の番号を表示させたClustalW 標準出力形式
Aln wo/numbers 塩基/アミノ残基の番号非表示のClustalW 標準出力形式
GCG MSF GCG MSF形式
PHYLIP PHYLIP パッケージで利用可能な出力形式
NEXUS NEXUS形式
NBRF/PIR NBRF/PIR 形式
GDE GDE 形式
Pearson/FASTA Pearson / FASTA 形式
Order
Alignment 出力結果で,出力する配列の順番を指定します。デフォルトは aligned です。
表示  
aligned Alignment の順番で配列を出力します。
input 入力された配列の順番で配列を出力します。

 
 
 

DDBJ 拡張版(Version 1.83, Modified by Dr. Kirill Kryukov) のオプション

系統樹作成・BOOTSTRAP のオプションの指定

Distance
系統樹計算時に使用する correction を指定します。デフォルトは Kimura です。PROTEIN の場合は Kimura と p-distance のみ指定可能です。のオプションは DDBJ オリジナルオプションです。
塩基置換推定法 塩基置換モデル 説明
Kimura
T C A G
T - α β β
C α - β β
A β β - α
G β β α -
トランジションとトランスバージョンの速度が異なると仮定して推定された塩基置換数
p-distance 入力された配列の順番で配列を出力します。 相違座位の割合
Jukes-Cantor
T C A G
T - α α α
C α - α α
A α α - α
G α α α -
全ての種類の塩基置換が同じ速度で生じると仮定して推定された塩基置換数
Tamura
  T C A G
T - κπGC 1-πGC πGC
C κ(1-πGC) - 1-πGC πGC
A 1-πGC πGC - κπGC
G 1-πGC πGC κ(1-πGC) -
トランジションとトランスバージョンの速度が異なると仮定し、さらに GC 含量の平衡速度も考慮して推定された塩基置換数
Tajima-Nei
T C A G
T - απC απA απG
C απT - απA απG
A απT απC - απG
G απT απC απA -
塩基の平衡頻度を考慮して推定された塩基置換数
Gojobori-Ishii-Nei
T C A G
T - β γ β
C α - α δ
A ε β - β
G α ζ α -
GC と TA 間で速度が異なり、他の置換については全て速度が異なると仮定して推定された塩基置換数
Tamura-Nei
T C A G
T - α2πC βπA βπG
C α2πT - βπA βπG
A βπT βπC - α1πG
G βπT βπC α1πA -
トランジションとトランスバージョンの速度が異なるだけでなく、トランジションの速度も TC と AG 間で異なると仮定し、さらに塩基の平衡頻度を考慮して推定された塩基置換数
  • α, α1, α2 ,β, γ, δ, ε, ζ, κ : 塩基置換速度
  • πT, πC, πA, πG, πGC : 平衡塩基頻度

TOSSGAPS
系統樹計算時に gap を無視するかを指定します。デフォルトは ON (gap を無視する) です。

OUTPUTTREE
系統樹計算結果の出力フォーマットを指定します。デフォルトは phylip です。

COUNT
bootstrap の実行回数を指定します。デフォルトは 1000 です。指定できる範囲は 1-10000 です。

SEED
bootstrap の実行時の seed 数を指定します。デフォルトは 111 です。指定できる範囲は 1-1000 です。

 

系統樹の作成について
複数の塩基配列あるいはアミノ酸配列を用いた系統樹の作成法としては、まず配列の全ての可能な組み合わせについて進化的距離(塩基置換数やアミノ酸置換数)を計算して距離行列を作成し、距離行列に最も適合するような系統樹を選び出す、いわゆる距離行列法や、配列を直接比較して、仮定された塩基置換やアミノ酸置換のパターンに最も適合するような系統樹を選び出す、いわゆる形質状態法などがあります。

CLUSTALWでは、距離行列法の一種である近隣結合法(NJ法)を用いて系統樹が作成されます。配列が塩基配列の場合、配列間の進化的距離としては塩基置換数が用いられますが、その計算方法は、p distance法、Kimuraの方法、Tamuraの方法、Tajima-Neiの方法、Gojobori-Ishii-Neiの方法、Tamura-Neiの方法などがあります。これらの方法は、塩基置換数の計算の際に仮定される塩基置換パターン(モデル)が異なっています。

一般に、塩基のT(U)とCはピリミジン、AとGはプリンという化学的構造を持ち、それぞれ物理化学的性質が似ていて、実際にTC間やAG間の置換(トランジション)はその他の置換(トランスバージョン)よりも頻繁に生じることが分かっています。また、生物種によって、GC含量などゲノムの塩基組成が異なるので、塩基置換の頻度は置換先の塩基の平衡頻度の影響を受けると考えられます。その他、生物学的なさまざまな要因によってそれぞれの塩基置換(T -> C、A -> Gなど)の速度は異なると考えるのが現実的です。

このように、生物の塩基配列の進化(変化)は非常に複雑なので、塩基置換数推定の際に仮定される塩基置換パターンも、より複雑な方が真の値に近い推定値が得られると考えられますが、一方、パターンを複雑にすればするほど、推定しなければならないパラメーター(αやβなど)の数も増加し、推定値の分散(標準誤差)が増大していきます。パラメーターの値は配列データから推定されるため、推定値の精度は配列数や塩基長、配列間の変異度に依存します。そのため、解析に用いるのに最適な塩基置換パターンは、解析される配列によって異なり、それを判定するための方法も存在しています。

CLUSTALWで用いられる塩基置換数推定法のデフォルト値はKimuraの方法ですが、これは非常に広く用いられている方法です。ただし、実際に解析している配列に合った塩基置換パターンがKimuraのモデルと異なる場合などには、誤った結果が得られることも考えられます。そのような場合は、DDBJオリジナルオプションとしていくつか異なった方法も用意してありますので、そちらを使用してみてもいいかもしれません。

アミノ酸配列間の進化的距離を推定する際も同様に、CLUSTALWではp distance法とKimuraの方法(塩基置換数推定法のKimuraの方法とは全く異なります)が利用可能であり、Kimuraの方法がデフォルト値となっています。必要に応じてp distance法も使用してみてください。

 
 
 
 

解析結果画面

ClustalW 解析結果

(1)解析結果

 
(2) Multiple Alignment の結果

 
 
 
(3)Guide Tree

 
 
(3) BOOTSTRAP 計算結果

(注意)2012年4月より,全ての解析時に BOOTSTRAP の計算を実行します。ただし,入力フォームで[FORMAT] と [CLUSTERING] の選択が以下の様な組み合わせのときには .phb ファイルは作成されません。

[FORAMT] [CLUSTERING]
PHYLIP NJ
NEXUS NJ
PHYLIP UPGMA
NEXUS UPGMA

 
 
(4)系統樹作成


ダウンロードしたファイルを,系統樹作成用ソフト(例:TreeView) で開くと系統樹が表示されます。
 
 
 

検索結果表示と保存期間

検索結果は Request ID を入れた,下記の URL で表示できます。
Request ID は,入力内容送信後の画面に表示されます。問い合わせ等の場合にも必要になりますので,必ず控えておいてください。
URLが他人に知られると他人に解析結果が分かってしまうため,ご注意ください。

http://clustalw.ddbj.nig.ac.jp/cgi-bin/clustalwr.cgi?id=Request ID&output=aln1
 
 

ClustalW について

このプログラムは:ClustalW2.1
参考文献

  • Larkin MA, Blackshields G, Brown NP, Chenna R, McGettigan PA, McWilliam H, Valentin F, Wallace IM, Wilm A, Lopez R, Thompson JD, Gibson TJ, Higgins DG.
    (2007). Clustal W and Clustal X version 2.0. Bioinformatics, 23, 2947-2948.
  • Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD. (2003) Multiple sequence alignment with the Clustal series of programs. Nucleic Acids Res. 31(13):3497-500.
  • Thompson JD, Higgins DG, Gibson TJ. (1994) CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res. 22(22):4673-80.
ページの先頭へ戻る