DDBJ の塩基配列解析ツールについて(後編)
前編 からのつづき
前回DDBJ パイプラインの概要とパイプラインが参照ゲノム配列に対するマッピングまたはde novo アセンブリを行なう基礎処理部とSNP 検出や発現解析等の高度な解析を行う高次処理部で構成されていることについて触れましたが,今回はその内容についてお話しさせていただきます。
1) 基礎処理部
新型シーケンサ配列の研究で一般的に利用されているBWA をはじめとする解析ツールを実装しています(表1)。2011年7月現在で実装している解析ツールの詳細な解説は 「実験医学増刊 Vol.29 No.15 使えるデータベース・ウェブツール (ISBN 978-4-7581-0317-6)」 にまとめてありますので併せてご覧ください。
解析の処理ステップはパイプライン側で設定してあり,マッピングのミスマッチ率設定などのオプションはユーザが画面上で入力します。DDBJ パイプラインの特徴として,DDBJ への配列登録支援機能,マッピング結果等の統計量計算機能,公開されているDRA/ERA/SRA のアクセッション番号を入力すると,DRA のFTP サーバからクエリ配列用に公開配列を取得する配列取得機能があります。
2) 高次処理部
ゲノム配列データ解析用web アプリケーションであるGalaxy のインターフェイスを利用しており,基礎解析部で生成した結果ファイルを基にSNP 検出や発現,クロマチン免疫沈降シーケンス (ChIP-Seq) 解析を行います。また,de novo アセンブリで作成したコンティグ中の遺伝子構造予測にも最近対応させています(図2)。
DDBJ パイプラインには現在,基礎マッピング処理に分散解析サーバ10~33台,高次処理に同3台,基礎アセンブリ処理に250GBメモリの計算機を,クラウド資源として割り当てています。
DDBJ におきましては,新型シーケンサ配列,解析した結果をDDBJ を通して登録,公開していただくことを推奨しております。DDBJ ではオンラインでの登録で使用するツールも準備しており,その解説についてはまたの機会にお話いたします。
| 種類 |
ツール名 | 備考 |
| マッピング | BLAT | 発現データはイントロンを想定したギャップを考慮したマッピングが可能 |
| MAQ | 高速シークエンサ登場初期にショートリードに対応。開発はBWA に引き継がれる | |
| BWA | MAQ より速く,より長いリードに対応(Roche 社のTitanium のリードもオプションで対応) | |
| SOAP2 | メモリ消費量少なく,より高速。精度はBWA より弱冠落ちる | |
| Bowtie | ギャップは考慮しないが処理は速い | |
| TopHat | RNA-Seq のリードを内部でBowtie を利用してマッピング。スプライスジャンクションを特定する | |
| Cufflinks | マッピングされたRNA-Seq をアセンブルして発現量を正規化 | |
| SAMtools | 共通フォーマットに変換されたマッピング結果を解析するためのソフトウェアパッケージ | |
| de novo アセンブル | SOAPdenovo | ヒト,パンダ等大型ゲノムのアセンブルで使用された。メモリ消費は多めだが,高速 |
| ABySS | 並列処理に対応したアセンブラ。アセンブルのアルゴリズムは基本的にSOAPdenovo と同じ(de bruijn graph) | |
| Edena | 高速シークエンサ登場初期に開発されたアセンブラ | |
| SOLiDTM System de novo Accessory Tools | 高速シークエンサSOLiD のデータ解析用パイプライン。アセンブルプログラムVelvetとDNA -アミノ酸配列アライメントプログラムMUMmer を実行する | |
| WEB インターフェイス | Galaxy | 解析ツール,実行しているジョブを統合管理する。DDBJ パイプラインでは高次解析で使用 |
表1:DDBJ パイプラインで稼働しているツール

図2:高次処理部 de novo アセンブルによるコンティグ解析画面
筆者が執筆者の一人でもあります 羊土社 から出版の 「使えるデータベース・ウェブツール」 も併せてご覧下さい。
また,2011年6月30日に講師を務めました「第24回 DDBJing 講習会 in 東京」での講義資料 もご参照下さい。
