DNA Data Bank of Japan
DDBJ メールマガジン 
No.31  2007年4月12日発行
English
apply 申込・変更
top 最新号 top
backnumber 過去の号
ddbj 発行:DDBJ
Search for
サイトマップ
ご利用の前に
DDBJ とは?
塩基配列の登録
  SAKURA
  大量登録
  登録データ更新
検索・解析
  ARSA   getentry
  TXSearch  
  FASTA   BLAST
  SSEARCH
  HMMPFAM
  ClustalW
 
  Web API
 
  GIB
  GIB-V
  GTPS
  GTOP
リリース詳細
リリース取得
  DDBJ リリースノート
  公開中リリース
Q and A
生命情報学へのとびら
  講習会   関連会議
  ゲノム機能発現研究会

 DDBJ の連絡先  mail
Copyright © 1995-2006
DDBJ All rights reserved.
 ■今年の一般公開は4月14日(土) 
桜2007春 国立遺伝学研究所には約260種におよぶ,さまざまな種類の桜があり,研究所へ来る途中の桜並木も含めて,桜の名所になっています。毎年この季節に,国立遺伝学研究所一般公開を行っており,今年の一般公開日は4月14日(土)です。今年は桜の開花が例年より早かったために既に葉桜になっている木も多いのですが,新緑も気持ちのよいものです。静岡県三島市近郊にお住まいの方,よろしければ一度足をお運び下さい。
隔月公開の DDBJ メールマガジン第31号 web 版です。 メールマガジンに関するご質問やご意見がありましたら ddbjmag@ddbj.nig.ac.jp までどうぞ。 写真は所内の桜です。

 ■新システムはこれだけ速くなった,がしかし... 
2005年2月3日に第1回スーパーコンピュータシステム仕様策定委員会を開催してから2年余り,2007年2月27日から国立遺伝学研究所において新しいスーパーコンピュータシステムが稼動し始めました。それにともない DDBJ におけるさまざまなデータ処理が大幅に速くなりました。

○データの管理や公開のデータ処理の場合旧システムに比べて次のように高速になりました:
  • 多数のフラットファイル作成:一晩に30万エントリー作成から100万エントリー作成へ増
  • 巨大なフラットファイルの作成:イネ染色体4本分に要した1時間50分を13分に短縮
  • ライブリスト*1の作成:1時間40分を13分に短縮
  • 大量のEST処理:3-4万エントリー/時から50-80万エントリー/時へ,15-20倍の高速化
これらの高速化は,分散データベースへ転換しかつその特長を活かすべくアプリケーションを改良したことによってもたらされました。

○相同性検索も速くなりました(旧システムとの単体性能比):
  • BLAST が7.71倍、PSI-BLAST が7.89倍、FASTA が4.73倍、SSEARCH が5.55倍
  • CLUSTALW も7.94倍となりました。
これらの高速化は,クロック数が上がったことならびに各アプリケーションの運用を見直したことによります。なお,CPU のコア数*2も 176 から 256 へ 1.45倍に増加し,受付可能数も多くなりました。

これまでにご紹介した高速化以外にもデータ処理の効率が全般的に向上しています。これによって,DDBJをより快適にご利用いただける端緒に就いたと思っております。

さて,新システム導入にあたっては2008年にその時点での最新機器を評価しつつ仕様を強化できる契約を実現しました。したがって,大規模計算機センターの共通の悩みであったレンタル期間末期の陳腐化を多少回避できる見込みです。しかしながら,新型のシークエンサの開発と普及ならびにメタゲノム解析*3 といった新しい研究分野の展開によっては,2005年から2006年にかけて設計した仕様の大前提が脆くも崩れさってしまう恐れがあります。

*1)ライブリスト:GenBank, EMBL とのデータ交換にあたって3センターからの公開データの間で齟齬が生じないようにする(クロスチェック)のために使用される,公開中の全データのリスト。
*2)CPU のコア数:従来のパソコンでは,1つのCPUは1つのコアを持ち(シングルコア),複数のアプリケーションが見掛け上同時実行されている場合でも,それぞれのアプリケーションは細かく分割されてこの1つのコアの上で縞模様のように順次実行されてきました。最近出てきたパソコンは2つのコアを持つ CPU が使われ始めています。単純に言えばディアルコアの CPU では2種類のアプリケーションをそれぞれのコアで実行できるので,シングルコア CPU の場合の半分の時間で処理が終わる可能性があります。PCクラスターでは4つのコアを持つCPUも使われ始めています。
*3)最近の例:The Global Ocean Survey由来のデータ。600万余りのタンパク質のアノテーションが付与された400万件のコンティグ(AACY020000001-AACY024124495)

 ■DDBJing 講習会 5月29-30日に三島にて開催 
DDBJ では,塩基配列の登録や DDBJ が提供しているデータベース検索・解析サービスをユーザの方々により有効に利用していただくために,「DDBJing 講習会」を開催しています。 2007年5月29-30日に 国立遺伝学研究所(静岡県三島市)にて「第17回 DDBJing 講習会 in 三島」を開催いたします。講習会では,2日間にわたり DDBJ のスタッフが中心となってデータ登録と検索解析サービスの利用方法に関する講議を行います。さらに,各講義中に PC を用いた実習をおこないますので,各サービスについての理解を深め,実際に即した具体的な使い方を学んでいただくことができます。今回の講習会では,本年2-3月のシステム移行によって導入された新システムを使用します。また講義内容を DDBJ の基本的なサービスに限定し,実習時間をこれまでの講習会よりも多く取り入れた初心者向けのプログラムとなっています。詳細については,DDBJing 講習会のページをご覧下さい。 参加申し込み受付は,4月12日より同サイトより受付いたします。皆様のご参加をお待ちしています。

 ■国立遺伝学研究所大型計算機(supernig)利用申請継続手続きのご案内 
国立遺伝学研究所の大型計算機(supernig)は,利用期間が一事業年度となっており,継続して利用を希望される方には,年度毎に継続の手続きをお願いしております。

2006年4月より,すべての手続き(新規・継続・変更・中止)を簡素化し,web 経由で可能になりました。 また,2007年からは「国立遺伝学研究所大型計算機(supernig)利用申請(継続)」のご案内をメールのみのお知らせとなります。

2007年4月以降もご利用を希望される方は,5月31日までに「国立遺伝学研究所大型計算機(supernig)利用申請(継続)」より継続の手続きを行なって下さい。2月,3月に新規の利用申請をされた方も利用期間は2007年3月31日までです。なお,所属などの変更がある方は,「変更申請」をご利用下さい。 また,利用を終了される方は「中止申請」より必ず手続きして下さいますようお願い致します。

各手続きは,以下の「計算機利用に関する申請」より行えます。
2007年2月27日(火)より大型計算機への接続(ログイン)方法が変更になりました。 詳しくは「国立遺伝学研究所の大型計算機への接続方法」をご参照下さい。
数値計算サーバ(minerva)のみで利用可能だったサービスに加え,新しい サービスが追加されました。 詳しくは「国立遺伝学研究所の大型計算機(supernig)および DDBJ WWW で 利用可能なソフトウェア一覧」の「supernig で公開しているソフトウェアの 紹介」をご参照下さい。 ご不明な点などがございましたら,お問い合わせ下さい。

DDBJ 計算機利用申請係
online-apl@ddbj.nig.ac.jp

 ■大量データの公開 
DDBJ が登録を受付け,2007年2月から3月にかけて DDBJ/EMBL/GenBank 国際塩基配列データベースから公開した大量データは以下の通りです。

ダマヤブワラビー (Macropus eugenii) GSS 147,312 エントリの新規公開
理研ゲノム科学総合研究センターから登録されたダマヤブワラビー (Macropus eugenii) の GSS 147,312 エントリが公開されました。 アクセッション番号は以下の通りです。
これらは3月10日の新着データとして DDBJ より公開されており,anonymousFTP サイトから一括取得が可能です。
アクセッション番号:DE842016-DE989327 (147,312 entries)
anonymousFTP 一括取得:ファイル名 Macropus_eugenii_GSS_070310_1.seq.gz

 ■カニクイザル脳の完全長cDNAに関する論文 
カニクイザル脳の完全長 cDNA に関する論文が PLOS Biology に発表されました。

この論文は,旧世界ザルの一種であるカニクイザルの脳のトランスクリプトームの完全長 cDNA 配列決定を行い,ヒト,チンパンジー,カニクイザル,マウスの脳発現遺伝子の進化の速度比較を行ったものです。 論文は,日本,アメリカ,台湾の研究者の共同研究の成果に基づいたもので,生命情報・DDBJ 研究センター (CIB-DDBJ) センターの五條堀孝が著者の一人となっています。 脳は,哺乳動物の様々な器官の中で最も複雑な仕組みを有し,脳機能の遺伝学的解明は近年注目を浴びている分野です。 ヒトを含む霊長類の脳は急速な進化を遂げたにもかかわらず,その脳発現遺伝子の進化は緩やかに進行したとされ,さらに種によって進化の速度は異なります。 ヒト,霊長類,マウスの脳遺伝子を比較することで,その理由の解明の糸口となることが期待されます。

論文中に掲載されているカニクイザル脳 cDNA遺伝子配列は,アクセッション番号 AB170063-AB174733 として,DDBJ から DDBJ/EMBL/GenBank 国際塩基配列データベースに登録・公開されています。 データは anonymous FTP 一括取得,または getentry で取得することができます。
 ■第6回日韓中バイオインフォマティクス・トレーニングコースが上海にて開催 
6thjkc 3月27日から30日まで,中国・上海交通大学にて,第6回日韓中バイオインフォマティクス・トレーニングコースが開催され,日本からも10名の受講生が参加し,日韓中3国のバイオインフォマティクスの様々な分野の研究者から,英語による講議と実習を受けました。 このコースは,日韓中の若手研究者を対象としたトレーニングコースで,アジアの研究者同士の交流の場としても有用です。DDBJ からも,五條堀,舘野,斎藤が講師をつとめました。

 ■DDBJ スタッフの異動 
DDBJ の運営母体である国立遺伝学研究所生命情報・DDBJ 研究センターに人事異動がありました。
2007年4月1日付けにて, 国立遺伝学研究所生命情報・DDBJ 研究センター長に,同センターデータベース運用開発室教授 菅原秀明が就任いたしました。これは,前センター長の五條堀孝(遺伝情報分析研究室教授)が,国立遺伝学研究所副所長に任じられたことによる交代です。なお,五條堀は,当センター教授として,これまでどおりDDBJ の活動や遺伝情報分析研究室の研究活動を推進していきます。
また,西川 建 国立遺伝学研究所生命情報・DDBJ 研究センター大量遺伝研究室教授が3月31日付をもって国立遺伝学研究所を定年退職いたしました。DDBJ スタッフとしては,システム管理局長として,国立遺伝学研究所全体のネットワークシステムの管理やスパムメール対策にあたりました。新赴任先は,前橋工科大学です。今後のご活躍を期待しております。 また,データベース運用開発研究室の阿部貴志助教が3月31日付で離任しました。 2004年4月よりDDBJ のスタッフとして,システム運用や本年2-3月のシステム移行等に貢献されました。新赴任先は,長浜バイオ大学です。今後のご活躍を期待しております。

 ■DDBJ のシステム不具合のお詫び 
相同性検索の検索結果表示不具合のお詫び
DDBJ が WWW およびE-mail で提供している相同性検索において,結果の表示に不具合が発生していたことが判明しました。詳細は下記のとおりです。
・対象サービス: BLAST, FASTA, PSI-BLAST, SSEARCH
・期間: 2007年2月27日から3月17日11時頃まで
(不具合判明後に検索用データベースの再構築済)
・不具合の内容:
  • 検索結果の表示で,本来アクセッション番号が表示されるはずが LOCUS 名が表示されるためにリンクエラーとなる(下記例参照)
  • 既に検索が終了したものは,Result Viewer で確認する際にもリンクエラーとなっていました。
・検索結果: 検索結果に間違いはありませんでした。
---------------------------------------------------------------------
                                                                 Score    E
Sequences producing significant alignments:                      (bits) Value

AAU58946|U58946.1 Aspergillus awamori transposable element Tan1,...   3979  0.0  
    ↑LOCUS名が表示されるため、リンクエラーとなる
AM270150|AM270150.1 Aspergillus niger contig An07c0330, complete...   3866  0.0  
AM270394|AM270394.1 Aspergillus niger contig An18c0010, complete...    517  e-143
AM270353|AM270353.1 Aspergillus niger contig An16c0010, complete...    517  e-143
---------------------------------------------------------------------
・対応: 検索用データベースの再構築を行い,既に完了しました。
ユーザの皆様にとって不便な状況が続いていたことにより,ご迷惑 お掛けいたしましたことを深くお詫び申し上げます。
 
DDBJ リリース 68 における INSD-XML 形式の TPA と CON の Anonymous FTP 公開についてのおわび 2007.3.9
DDBJ リリース 68 において、INSD-XML 形式の TPA と CON の Anonymous FTP 公開が行われておりませんでした。 下記の期間中に、リリースデータを取得した方は、再度データを取得し直してください。ご迷惑をおかけしましたこと、深くお詫びいたします。
 ■DDBJ スタッフコラム 20 
「アノテータという職業」
青野 英雄(DDBJアノテータ)

私の職業は,アノテータだ。アノテータは,どんな仕事をしているのか,謎だと思っている方も多いと思う。アノテータは日本語で言えば注釈者に相当し,科学者である一面と情報技術者である一面をもっている。塩基配列だけでは何の機能があるか分からない。そのために塩基配列上の機能を推定し,人間の理解できる言葉で生物学的注釈(アノテーション)を行うのが,アノテータだ。そしてDDBJアノテータは,登録データに記載されるアノテーションの妥当性を検証し,国際塩基配列データベースを構築するのが業務だ。

アノテータの仕事を良く知って頂くために,こんなサスペンスドラマを考えてみた。
主人公のアノテータの自宅パソコンに,塩基配列だけが書かれた差出人不明のメールが送られてくる。その日から無言電話,数万件にのぼるスパムメール攻撃,その中に混じって「塩基配列を消去せよ」という強迫メールが送られてくる。そして暴漢に襲われ,危機が迫る。そんな中,主人公は送られてきた塩基配列の解析を開始する。相同性検索,遺伝子解析ツール,インターネット検索を駆使し,やがて明らかになるのは,その配列は生物化学兵器に使用される遺伝子であった。そして収集された知見のもと,生物化学兵器を無毒化する中和抗体を作り出す。最後に,主人公は生物化学兵器の開発計画を中止することに成功する。
少しアノテータを格好良く書き過ぎた様だ。このアノテータの華麗なる活躍は,あくまでドラマの中での話だ。実際,アノテータの仕事は,とても地味で泥臭い作業を行っている。コンピューター画面を見つめ,登録データのアノテーションと塩基配列に向かい合い,数百通のメールに目を通し,登録データの処理方針に頭を抱え,データベースを構築する毎日だ。しかし私は,アノテータという職業は,とてもやりがいのある仕事だと思っている。

私のアノテータ業務は,登録データの更新だ。理想的なデータベースとは,常に最新の状態で維持され,誤ったデータを極力少なくすることだと考えている。データの更新は,登録者の方からの依頼に基づく業務だけでは終わらない。1980年代から蓄積され続けている全データを対象に,修正を行う作業も存在する。ある意味,データ更新業務は,データベースの精度管理の役割も担っている。
私はデータベース内を検索し修正していく中で,幾重にも遺跡が積み重なるトロイ遺跡の発掘を行ったハインリッヒ・シュリーマンと自分を重ね合わせてしまった。その当時正しかった内容のデータ,何らかの入力ミスによる誤りのあるデータ等,様々なデータがまるで地層の様にデータベースの中に積み重なっている。その中を掘り進め問題のあるデータの修正を行うことは,貴重な宝物を発掘し綺麗に磨き上げ修繕する事に等しい。そして巡り合う様々なデータは,知の集積であり,未来の子孫へ託す至宝なのだと感じる時がある。

私は巨大データベースを構築していく経験から,情報は水に例えることができるという知見を得た。そしてデータ管理は,治水に例えることができると思った。治水管理は,最小限の労力で貯蔵した水が漏れ出さない様にコントロールするのが理想だ。データ管理も同じ事が言える。アノテータはデータベースという巨大なダムを構築し治水を行い,そして新たに注ぎ込まれるデータを,データベースに合致する内容に整え流し込んでいく。さらに注ぎ込まれるデータが問題なく管理される様に,データベースという入れ物を構築していく。言わばアノテータは水先案内人であり,治水管理者である。そしてデータ更新は,水質浄化ということができる。
私達アノテータは澄み切った巨大なデータベース(プール)を構築し,生命科学の基盤を堅固なものにしたいと考えている。そして国際塩基配列データベースを未来へ引き継ぐことを使命と考えている。この巨大事業は,皆様の協力を失くしてはあり得ない。DDBJにデータを御登録頂き,そして最新の知見をデータに反映するため更新に御協力を頂いている皆様に,この場を借りて感謝の意を表したい。



  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行: 日本 DNA データバンク (DDBJ)
  大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111
Last modified: Oct. 07, 2011