DDBJでは,3D-1D法によるタンパク質の立体構造予測プログラム(LIBRA)をWWWで公開しました。WWWのページから解析に必要な情報を入力してサーバーに送信し,解析結果は電子メールで受け取ります。LIBRAのホームページはDDBJのホームページにリンクされています。LIBRAについての詳しい説明は以下の文章をお読み下さい。ここに掲載する文章は,「タンパク質立体構造の構築原理 (科学研究補助金重点領域研究) 第2回講習会」のテキスト用原稿を更新したものです。

LIBRA

3D-1D法によるタンパク質の立体構造予測

国立遺伝学研究所 太田元規 水沼 貞 西川 建


I.はじめに

 近年、タンパク質の構造予測法として、3D-1D法(英語ではthreadingという名前がポピュラーです)という方法が注目を集めています。 3D-1D法を簡単に述べると、「予測対象の配列が、どのような既知立体構造に”乗る”ことができるか」を評価して予測を行う方法と言えるでしょう。 この場合、どのようなシステムで乗りの評価をするか、が方法の核となります。 具体的には、配列と構造の適合性を評価する評価関数と、配列を構造にどのように乗せるかを決める、3D-1Dアラインメントのアルゴリズムが問題となります。 3D-1D法は90年代初頭から急速に研究が進んだ方法で、種々のメソッドが提案されていますが、評価関数とアラインメント法を知ると各方法の違いを理解することができると思います。 ここでは、私たちが開発したプログラムLIBRAの紹介をします。 LIBRAはLIght Balance for Remote Analogous proteinsの略で、タンパク質の遠い類遠性を指摘するためのツールとして利用したい、という作者の願いを込めています。 また、星占いでつかう星座の天秤座という意味も持っているので,両袖に3Dと1Dを乗せてバランスをみる天秤をイメージし名付けました。


II.3D-1D法の歴史と背景

 今までタンパク質の構造予測法と言えば、配列のホモロジーサーチをしてヒットしたエントリが構造既知であればそれをもとにモデリングをする、いわゆるホモロジー法と、アミノ酸間の相互作用関数などを与えてエネルギー最適化のシミュレーションを行う、いわゆるアブ・イニシオ法のいずれかでした。 3D-1D法は、ちょうどこの中間の性質を持っています。 タンパク質の類遠性を利用してフォールディング過程を問わない、という意味ではホモロジー法に似ています。 サーチする構造空間を既知構造(とその挿入/欠損体)に限定した特殊なアブ・イニシオ法という見方もできます。
 3D-1D法の歴史を眺めると、2つのルーツが融合した過程を見てとることができると思います。 3D-1D法の原始形は当時MITにいたBowieらの仕事に見られます。 構造と配列の関係を評価する簡単なスコア関数で構造と配列を(配列と配列をアラインメントするように)アラインメントしよう、というアイデアが提案されています[1]。 この時分、UCLAのEisenbergのグループでは、高感度のホモロジーサーチを行うためにプロフィール法という配列ホモロジーサーチ法を開発していました[2]。 BowieがUCLAに移った結果、プロフィール法に”構造”の視点が加わり、3Dプロフィールによるホモロジーサーチが登場します[3]。 一方、アブ・イニシオ法では簡単で効果的な相互作用関数が求められますが、それを立体構造データベースから経験的に作成しようという研究も細々と続けられていました。 その中でもSipplが提案した形式は立体構造データの粗密の補正が合理的であり、また、Bowieの関数より精密な印象を与えたため1つの手本となりました[4]。 しかし、Sipplの関数はペアワイズ形であったため単純なアラインメント法の様式に合致しません。 そこで、Jonesらは構造アラインメントで使われるダブル・ダイナミック・プログラミング法(DDP)[5]をSipplの関数に適応して、Bowieの流れとSipplの流れをリンクさせました[6]。 この段階において、3D-1D法の”手順”はほぼ完成したと思われます。 この後、3D-1D法のブームと進化は激しさを増し、様々な構造―配列適合性関数が提案されました。 また、2年に一度行われる”タンパク質の構造予測コンテスト(CASP)”では最も活気のある1分野を形成するようになりました。
 では、なぜこれほどまでに3D-1D法がもてはやされるようになったのでしょうか? 大きな理由は2つあると思われます。 1つには、X線結晶構造解析技術の進歩により、多くの立体構造が決定された結果、思いがけない構造の類似性を示すタンパク質ペアが発見され、それによって類遠関係の理解が進む、というイベントが続いたことです[7-8]。 以前から配列に基盤をおくホモロジーサーチにはトワイライト・ゾーンと呼ばれる限界領域があると指摘されていましたが、構造の類似性はこれを越えても有効である、という事実がしだいに認識されてきたわけです。 また、90年代初頭から盛んになった、ゲノム解析などのデータから、タンパク質の典型的な立体構造数に関する類推が行われるようになったことがあげられます。 ゲノム、タンパク質の配列データベース及びタンパク質の立体構造データベースの3つのデータセットが含む類縁タンパクの比率から、タンパク質の典型的な立体構造の数は高々千のオーダーであると考えられています[9]。 この数字は以前漠然と思われていたタンパク質の立体構造数よりも格段に少ない印象を与えました。 つまり、3D-1D法を完成させるためには、答えにあたる構造空間を完全に張らねばなりませんが、そこに千という実現可能な目標値が設定されたため、完成という希望が現実味を帯びたものとして認識されるようになったのです。 今では構造ライブラリ(答えの空間)は何年後かに完成する、そうしたら次に何が必要か、というふうに手を見越して研究計画をたてる人が増えているように感じます。


III.3D-1D法のプログラム:LIBRAについて

 LIBRAは3D-1D法の可能性を模索するために利用したプログラムを集めたもので、周辺領域との整合をなるべくとるために種々の特徴を備えています。今まで3D-1D法は構造予測法であると書いてきましたが、LIBRAでは構造予測の他に、点突然変異体の安定性解析や[10]、構造をプローブにした配列DBに対するホモロジーサーチ(いわゆるインバース・フォールディング・サーチ:配列リコグニション)が実行できます。こういった解析に他のプログラムよりも強味があるのは、構造―配列適合性関数を作成する時に疑似的な非天然状態(denatured state)を設定し、そこからのエネルギー差を考えるようにしているからです[11]。このエネルギー関数作成操作をMinus Averege Operation(MAO)と呼びます。では、LIBRAの方法論を簡単に紹介しましょう。
a.構造ライブラリ
3D-1D法の答えとなる構造空間のことです。 LIBRAは当初100構造程度からなる小さなライブラリしか持っていませんでしたが、PDB rel.79に併せて新しく構造ライブラリを作成致しました。 現在は400構造ほどからなるライブラリを使っていますが、適宜バージョンアップを行なっていく予定です。

b.構造―配列適合性関数
関数作成用に用意した構造ライブラリの統計データから関数を作成します。 LIBRAでは4種類の関数を独立に計算し、その和をもって合計スコアとしております。 側鎖の相互作用をみる関数、疎水性をみる関数、主鎖の水素結合の嗜好をみる関数、および局所構造の関数からなっています。 それぞれに細かな工夫がしてありますが、それは論文を参照ください[11]

c.アラインメント
構造と配列のアラインメントはDDPの様な高尚なことはしていません。 Bowieが行ったように、構造を3Dプロフィールというテーブルに変換して、これと配列をアラインメントしています。 3Dプロフィールは、各サイトに20種類のアミノ酸が乗った場合に、周りの環境との親和性がいかほどであるのかを上述関数で評価した表で、PAM250などのホモロジースコアをサイト依存性があるように展開したものと同等の形式を持ちます。 よって、普通のダイナミック・プログラミング法が利用できます。 プロフィールを作成する際にはGodzikらが導入した凍結近似(frozen approximation)を使います[12]。 これは、考えているサイト以外の配列は天然のものと考える、という近似で、ペアワイズ関数を利用してプロフィールを作成する場合の1つの処方です。 最終的なスコアはアラインメントに従って配列を構造に乗せ直して計算しています。

d.判定
構造と配列のマッチが有効であるかどうかを判断するために、標準化されたスコアを算出しています。 全ての構造ライブラリをスキャンした後、得られたスコアの平均と分散を求めます。 これらを利用して全てのスコアを正規化し、出力します。 標準化されたスコアがもし-3.0以下であれば、そのマッチは有望と判断できます。 -2.5を越えていれば有望かもしれません。 モチーフの存在や実験結果などで一致を示唆するものがあれば、”当たり”かもしれません。 絡め手の仕事となりますが、情報を複合的に利用する醍醐味はあります。


IV.LIBRAの使い方

a.アクセス
LIBRAはインターネットを経由して利用できます。 LIBRAのURL(ホームページのアドレス) はhttp://libra.ddbj.nig.ac.jp/top-j.htmlでDDBJのホームページからリンクが張られています。

b.LIBRAのページ
ホームページでは最初に簡単なLIBRAの紹介がされます。 名前の由来やLIBRAでできる3つの解析についても述べてあります。構造予測をする際には2番目のStructure Predictionを選択してください(図1)

c.構造予測のページ
手順の説明と配列などの入力フィールドがあるページです(図2)。 このページでも説明されていますが、予測をするには最低2つの情報を入力する必要があります。 それは結果の送付先のメールアドレスと、予測対象配列です。配列はアミノ酸を1文字表記で入力してください。 現在LIBRAでは50〜400残基からなる配列について検索を受け付けています。 図2の例ではゲノムが決定されたアーケバクテリアの配列で、まだアイデンティファイされていないジーン名MJ0920という配列を入れてみました。配列はフリーフォーマットで受け取りますから、1行の長さは自由ですし、空白が入っていてもかまいません。 メールアドレス、配列の他に、配列のコード名、出力するエントリ数とアラインメント数を入力するフィールドがありますが、これらは必須ではありません。 何も入力しなければコード名はQUERY、エントリはスコアの良い方から20個、アラインメントは5本出力されます。入力を終えたらサブミットボタンを押してください。 プロセスが届けば、受け付けた旨を知らせるメッセージが表われます。エラーがあれば、この際通知します。

d.結果のメール
予測の計算には小一時間かかります。 計算が終了すると結果はメールとして送信されます(図3)。予測に使われたパラメータやライブラリ数などの表示の次に候補エントリとその成績(スコア)、その下にアラインメント結果が表示されます。 前述のように、標準スコアが-3.0以下であれば、有望と判断してください。 -2.5以下であれば有望かもしれないのでアラインメントなどを見て検討してください。 例では5p21構造がトップで、しかも-3.0を越えるスコアを示しました。 また、アラインメントを見るとP-loopなどが保存していますので、この配列はras proteinの仲間ではないか、という推察ができます。 結果の解釈や操作法などで質問があればtrouble@nig.ac.jpまでご一報ください。

参考文献
[1] Bowie, J.U., Clarke, N.D., Pabo, C.O. and Sauer, T. (1990) Proteins 7, 257-264.
[2] Gribskov, M., McLachlan, A.D. and Eisenberg, D. (1987) Proc. natn. Acad. Sci. USA 84, 4355-4358.
[3] Bowie, J.U., L殳hy, R. and Eisenberg, D. (1991) Science 253, 164-170.
[4] Sippl, M.J. (1990) J. Mol. Biol. 213, 859-883.
[5] Taylor, W.R. and Orengo, C.A. (1989) J. Mol. Biol. 208, 1-22.
[6] Jones, D.T., Taylor, W.R. and Thornton, J.M. (1992) Nature (London) 358, 86-89.
[7] Kabsch, W., Mannherz, H., Suck, D., Pai, E.F. and Holmes, K.C. (1990) Nature (London) 347, 37-44.
[8] Swindells, M.B. (1992) Science 258, 1160-1161.
[9] Chothia, C. (1992) Nature (London) 357, 543-544.
[10] Ota, M., Kanaya, S. and Nishikawa, K. (1995) J. Mol. Biol. 248, 733-738.
[11] Ota, M. and Nishikawa, K. (1997) Prot. Engng. 10, 339-351.
[12] Godzik, A., Skolnick, J. and Kolinski, A. (1992) J. Mol. Biol. 227, 227-238.

注)WWWの画面や返信メールの仕様については予告なく変更する場合がありますので、あらかじめご了承ください。

目次へ戻る


www-admin@ddbj.nig.ac.jp