2005年2月3日に第1回スーパーコンピュータシステム仕様策定委員会を開催してから2年余り,2007年2月27日から国立遺伝学研究所において新しいスーパーコンピュータシステムが稼動し始めました。それにともない DDBJ におけるさまざまなデータ処理が大幅に速くなりました。

○データの管理や公開のデータ処理の場合旧システムに比べて次のように高速になりました:


  • 多数のフラットファイル作成:一晩に30万エントリー作成から100万エントリー作成へ増
  • 巨大なフラットファイルの作成:イネ染色体4本分に要した1時間50分を13分に短縮
  • ライブリスト*1の作成:1時間40分を13分に短縮
  • 大量の EST 処理:3-4万エントリー/時から50-80万エントリー/時へ,15-20倍の高速化

これらの高速化は,分散データベースへ転換しかつその特長を活かすべくアプリケーションを改良したことによってもたらされました。

○相同性検索も速くなりました(旧システムとの単体性能比):


  • BLAST が7.71倍、PSI-BLAST が7.89倍、FASTA が4.73倍、SSEARCH が5.55倍
  • CLUSTALW も7.94倍となりました。

これらの高速化は,クロック数が上がったことならびに各アプリケーションの運用を見直したことによります。なお,CPU のコア数*2も 176 から 256 へ 1.45倍に増加し,受付可能数も多くなりました。

さて,新システム導入にあたっては2008年にその時点での最新機器を評価しつつ仕様を強化できる契約を実現しました。したがって,大規模計算機センターの共通の悩みであったレンタル期間末期の陳腐化を多少回避できる見込みです。しかしながら,新型のシークエンサの開発と普及ならびにメタゲノム解析*3 といった新しい研究分野の展開によっては,2005年から2006年にかけて設計した仕様の大前提が脆くも崩れさってしまう恐れがあります。

*1) ライブリスト:GenBank, EMBL とのデータ交換にあたって3センターからの公開データの間で齟齬が生じないようにする(クロスチェック)のために使用される,公開中の全データのリスト。
*2) CPU のコア数:従来のパソコンでは,1つの CPU は1つのコアを持ち(シングルコア),複数のアプリケーションが見掛け上同時実行されている場合でも,それぞれのアプリケーションは細かく分割されてこの1つのコアの上で縞模様のように順次実行されてきました。
最近出てきたパソコンは2つのコアを持つ CPU が使われ始めています。単純に言えばディアルコアの CPU では2種類のアプリケーションをそれぞれのコアで実行できるので,シングルコア CPU の場合の半分の時間で処理が終わる可能性があります。
PC クラスターでは4つのコアを持つ CPU も使われ始めています。
*3) 最近の例:The Global Ocean Survey由来のデータ。600万余りのタンパク質のアノテーションが付与された400万件のコンティグ(AACY020000001-ACYY024124495)