HOME > レポート・統計 > メルマガ
DDBJ
No. 36   2008年2月7日発行
apply 申込・変更    top 最新号 top    backnumber 過去の号    ddbj 発行:DDBJ
 富士を臨んで
mt.fuji
新年よりトップページを飾る富士山の写真が変わりました。朝焼けの富士です。静岡県三島市にあるDDBJからは,富士山の姿を常に見ることができます。遺伝研やDDBJへの来訪者にとっては,富士が見えることが何よりのもてなしとなっているのですが,富士山が見えることが当たり前になっている私達は,その恵まれた環境にあまり気づかずにいます。とても勿体ない話ですね(先日の雪で,写真よりさらに真っ白になりました)。
DDBJ メールマガジン第36号 web 版をお届けいたします。 メールマガジンに関するご質問やご意見がありましたら ddbjmag@ddbj.nig.ac.jp までどうぞ。
去る2007年2月に,DDBJではシステムの入れ替えを行い,DDBJ内部の情報システムからサービス提供システムまで(データベースから解析サーバまで)機器を一新して業務に臨んでおります。
DDBJをご利用になる方からは,内部のシステムはなかなか見えて来ることはないかと思いますが,今回はこの内部のシステムの中でも超大量エントリの公開処理についてお話させて頂きたいと思います。

DDBJでは,公開前のエントリ情報が外部から閲覧されることが決して無いように,公開前のエントリ情報を保持しているデータベースと getentry などで閲覧できる公開後のエントリの情報を保持するデータベースとを分離しています。このため,下図に示されるような流れで,一日に一回夜間処理によって,公開前エントリの情報を保持しているデータベースから,その日の公開分のフラットファイルを出力してgetentry相同性検索サービスARSAanonymous FTP などの公開サービスに展開してきました。

flat file release proc

大量のエントリを展開するために,旧システムでは長時間を要していましたが,新システムでは今月(2008年1月),約150万件を無事展開することができました。新システムでも1日目約100万件,2日目約50万件と2日掛かりという超大量件数でしたが,事前にシステムの例外処理を行うこともなく計画通り完了しました。
システムの入れ替え前は,一日の展開は35万件程度が限度でしたので,今回の展開には4日以上かかったことになります。システム入れ替え時に旧システムに対して3倍程度のエントリを処理可能なようにハードウエアとソフトウエアを見直しましたが,今回設計通りの性能を発揮することを確認できました。
しかし,公開処理は安全に行うことが出来たものの,夜間処理の開始時刻の再検討,転送用ファイル作成処理の見直しなど,課題もいくつか見つかりました。
検討の例
(課題1)過去の経験から夜間処理の開始を 01:00 に設定していたが,実は早められるのではないか
==>検討内容: 24:00 開始のバックアップシステムに影響しない方法を再検討する。
(課題2)ファイルの受け渡し時間について,データベース側と公開サービス側とで,若干ずれが生じている。Flat File の作成は毎時30分,Flat File の転送は毎時10分で,約40分のタイムラグが発生している。
==>検討内容:ずれが必要な理由は各サーバで出力された Flat File を1ファイルにしなければならないためで,各サーバで出力されたFlat Fileを公開サービスに直接渡すことが出来れば,30分は時間短縮できる。
(課題3) getentry の反映開始時間は,04:00, 08:00, 12:00 となっているが,12:00 のタイミングで反映開始となると,100万件の反映が完全に完了する時間が 18:30 になる。
==>検討内容:今の件数で 17:00 までに完了するには,10:00 から反映開始をする必要がある。現在,10:00 からは getentry で別の処理が実行されてしているため,タイミングを調整する必要がある。
こうした課題を解決するためには,サーバ同士の連携をさらに強化する必要があるため,システムエンジニアの中で検討を進めているところです。
今回はデータ登録やデータの検索ならびに解析をご利用いただいている方々が意識されるシステムの話題ではありませんでしたが,DDBJから大量公開のお知らせが出た際には特に,円滑なデータ更新のためにシステムエンジニアが知恵を絞っているところを思い浮かべていただければ幸いです。
DDBJ では,微生物ゲノム情報提供サービスである GIB(Genome Information Broker) にて RSS 配信を開始しました。お手持ちの RSS リーダーに同サイトを登録しておくと,新規ゲノムの追加やデータが更新されたゲノムを簡単に知ることができます。

RSSとは?
RSS はRich Site Summary または Really Simple Syndication の略であり,見出し,概要,更新日付,Web サイトへのリンク等を配信するために用いられています。利用者は RSS 配信サイトをリーダーに登録しておくことにより,Web サイトの更新情報を効率的に知ることが可能です。

RSSリーダーとは?
XML(Extensible Markup Language)ベースで書かれた更新情報(RSS)を受信し,その見出し,概要などを一覧表示するソフトウェアのことです。RSSリーダーは Google や Yahoo! などのウェブサイトでも RSS サイトの登録・利用が可能です。まずはご自身のアカウントを取得し,ログインして下さい。写真は Google に RSS サイトを登録しています。



RSSの利点は?
  • GIB の Web サイトに毎朝接続して更新の有無を確認する必要はありません
  • 気になる更新情報をクリックするだけで,該当するゲノムのページを閲覧できます。

GIB RSS を利用するには?
Google や Yahoo! などのウェブサイトでサイトを登録しなくても,RSS リーダーというプログラムをパソコンに組み込む(インストール)することでも,利用することができます。Windows PC での RSS リーダーを使用した例についてご説明します。
  1. RSS リーダーをインストールします。画面は RssReader(http://www.rssreader.com/)。
  2. リーダーに GIB RSS 配信サイト(http://gib.genes.nig.ac.jp/rss.php)を登録します。
  3. GIB の項目が追加されます。
  4. 3.を選択すると4.の更新された生物種名が一覧表示されます。
  5. 4.の生物種行を選択すると5.の個別の更新情報が表示されます。



DDBJ では利用者の方々のご意見もうかがいながら,試みに GIB に導入した RSS 配信を,他のサービスにも展開していく予定です。
DDBJ が登録を受付け,2007年12月から2008年1月にかけて DDBJ/EMBL/GenBank 国際塩基配列データベースから公開した大量データは以下の通りです。
ニホンザル (Macaca fuscata) GSS 167,159 エントリの新規公開 2007.12.19
理研ゲノム科学総合研究センターから登録されたニホンザル(Macaca fuscata) GSS 167,159 エントリが公開されました。これらは12月18日の新着データとして DDBJ より公開されており,anonymousFTP サイトから一括取得が可能です。
立襟鞭毛虫 (Monosiga ovata) EST 69,143 エントリ と GSS 60,757 エントリの新規公開 2007.12.19
理研ゲノム科学総合研究センターから登録された立襟鞭毛虫 (Monosiga ovata) EST 69,143 エントリ と GSS 60,757 エントリが公開されました。 これらは12月18日の新着データとして DDBJ より公開されており,anonymousFTP サイトから一括取得が可能です。
アクセッション番号と anonymous FTP ファイル名は以下の通りです。
参考 URL: http://stt.gsc.riken.jp/
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。12月25日に DDBJ リリース72 を完成しました。リリース72 のエントリ数は 79,004,098,総塩基数は 82,592,245,487 です。
FTP によるリリースデータの取得は,FTP・WebAPI のページよりおこなえます。
なお,既にお知らせしているとおり,DDBJ では,DDBJ が登録を受け付けたエントリの E-mail アドレスと電話番号,FAX 番号の非表示化をすすめておりましたが,今リリース公開をもちまして,作業が完了いたしました。今後はフラットファイルを参照しての配列の登録者への連絡が取り難くなります。登録者への連絡が必要な場合はメッセージを転送いたしますので,専用の問い合わせフォームからご連絡ください。
Nucleic Acids Research では,毎年データベース特集号が発行されています。 本年1月発行の Vol. 36, Database Issue に,DDBJ の活動に関連して下記の論文が掲載されました。
"DDBJ with new system and face"
H. Sugawara, O. Ogasawara, K. Okubo, T. Gojobori and Y. Tateno
Nucleic Acids Research, 2008, Vol. 36, Database issue D22-D24
(内容) DDBJ の1年間の活動報告(データ公開,システム移行,ARSA の機能強化,DDBJ ホームページの改良等)

"The H-Invitational Database (H-InvDB), a comprehensive annotation resource for human genes and transcripts"
Genome Information Integration Project And H-Invitational 2 (DDBJ からは,T.Okido, J.Mashima, K-B.Lee, A.Nozaki, K.Sakai, Y.Suzuki, K.Ikeo, N.Saitou, H.Sugawara, S.Fukuchi, Y.Tateno, T.Gojobori が著者)
Nucleic Acids Research, 2008, Vol. 36, Database issue D793-D799
(内容)H-Invitational Database (H-InvDB) について
  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行:日本 DNA データバンク (DDBJ)
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111