新型シークエンサの解析現場では、大量データを扱う計算機資源が手元にない場合に、クラウド上で解析を行なう解析スタイルが広がりつつあります。DDBJでは国立遺伝学研究所のスーパーコンピュータをライフサイエンス用のクラウドとして活用する為に、クラウド環境「DDBJ Cloud」の基盤整備を進めています。
クラウドとは計算機データセンタと同義で、インターネット越しにデータセンタの計算機資源を活用する利用形態をいいます。クラウド環境が充実すれば、データ解析の全工程をクラウド上で完結させる事も可能です。例えばゲノム解析の場合は、クラウド環境にシーケンスデータをアップロード、クラウドに設置済みの公共データセットを利用して解析を行い、ブラウザも参照配列や解析配列をクラウド上で動かす事が出来るようになります。
DDBJ Cloudの整備目標は、「シーケンス生データの登録」~「塩基配列の注釈付け」~「注釈結果のDDBJへの登録」の一連の処理をクラウド上で実現する事です。
DDBJでは「DDBJ Cloud」の使い方として、新型シークエンサ大量配列処理の問題と対応した「クラウド型計算機資源利用法」を提案しています。大量配列を扱う上で、データ保管庫不足にはアーカイブデータベースDRAの利用を提案します。また計算機不足には、DDBJオープンシステムプロジェクトを、計算機と解析要員不足にはDDBJ pipelineを提案しています。

DRAは、NGSの生データを保存するデータベースです。DRAはデータ保管庫として利用できますが、DRAへの登録はインターネット上に一般公開する事が前提条件になります。DDBJオープンシステムプロジェクトは、DDBJのクラスタ計算機を一定期間中、貸与します。ほぼ半年毎に研究課題が公募されます(2011年度は震災の影響で前期後期の募集でなく数か月単位の公募をしています)。DDBJ Pipelineは、事前にpresetされた処理手順で次世代シークエンサ用の解析ツールを利用できます。固定化された標準的な解析処理に利用する事が出来ます。
参考文献
「クラウド型計算機資源利用に基づいた新型DNAシークエンサ大量配列解析」,化学と生物,2011年3月
クラウド解析ツールの種類を下表にまとめた。
DDBJ Pipelineのようにデータセット付属の計算機環境を軸に解析基盤を提供する“解析基盤型”(下の表でC-タイプ)と,Amazon EC2などの商用クラウドやアカデミックのクラウドへの適用準備がなされた“アプリケーション型”(下表でD-タイプ)がある.クラウド上で実行可能にする機能だけでなく,分散並列化で高速処理できる解析ツールも別に分類できる(E-タイプ).
DDBJでは、2012年2月からの遺伝研スーパーコンピュータのハードウェア更新に伴い、大量のクラスタノード(約1000コア)が利用可能になる。これより各ツールについて、D-タイプのアプリケーション型を提供する事で、ユーザに個別の解析環境を提供する事を目指している。特にDDBJ Pipelineでは、「塩基配列の注釈付け」「注釈結果のDDBJへの登録」の機能を充実させていく。
| A | B | C | D | E | ||
| ローカル環境 | クラウド環境 | |||||
| データ置場 | QUERY | local | local | server | server | server |
| DB | local | server | server | server | server | |
| 機能 | 計算機資源の スケーラブル化 |
|||||
| 仮想化ベンダー | ||||||
| 大規模分散(MapReduce) | ||||||
| DDBJ Service | www blast, ClustalW | DDBJ Pipeline | 2012年度以降開発予定 | 未定 | ||
参考文献
「DDBJ Cloud:次世代シークエンサーの配列アーカイブとクラウド型解析ツール」,細胞工学,2011年8月