DNA Data Bank of Japan
DDBJ メールマガジン 
No. 24  2006年1月30日発行
English
apply 申込・変更
top 最新号 top
backnumber 過去の号
ddbj 発行:DDBJ
Search for
サイトマップ
ご利用の前に
DDBJ とは?
塩基配列の登録
  SAKURA
  大量登録
  登録データ更新
検索・解析
  ARSA   getentry
  TXSearch  
  FASTA   BLAST
  SSEARCH
  HMMPFAM
  ClustalW
 
  Web API
 
  GIB
  GIB-V
  GTPS
  GTOP
リリース詳細
リリース取得
  DDBJ リリースノート
  公開中リリース
Q and A
生命情報学へのとびら
  講習会   関連会議
  ゲノム機能発現研究会

 DDBJ の連絡先  mail
Copyright © 1995-2006
DDBJ All rights reserved.
 ■年度末はなんだか慌ただしいですね 
隔月公開の DDBJ メールマガジン第24号 web 版です。 メールマガジンに関するご質問やご意見がありましたら ddbjmag@ddbj.nig.ac.jp までどうぞ。

 ■「DDBJing & PDBjing 講習会 in 大阪」参加受付中! 
DDBJ は 提供しているツールに関する講習会「DDBJing 講習会」を全国各地で開催しています。
2月2-3日に大阪大学中之島センターで「第14回 DDBJing & 第2回 PDBjing 講習会 in 大阪」を開催いたします。 今回は大阪大学蛋白質研究所ならびに PDBj(日本蛋白質構造データバンク)との共同開催で,DDBJ ならびに PDBj が提供しているアミノ酸・タンパク質に関するサービスの利用法についての実習と,タンパク質およびゲノム研究に関する講議を行ないます。 PC を用いた実習の時間を多く設け,より実践的な知識を身に付けていただける講議内容を予定しています。
開催日が間近ですが,席に若干の余裕がありますので興味をお持ちの方はどうぞお申し込み下さい。
写真は 前回 の様子です。 東京農業大学で開催しました。
  • 日時:2月2日(木)13時から3日(木)17時まで
  • 場所:大阪大学中之島センター・キャンパスイノベーションセンター
  • 定員:30名(参加費無料)
  • その他:実習に使用しますので,無線 LAN 使用可能な PC をご持参下さい
  • 講習会のサイト
 ■Bioinformatics Training Course 開催決定 
3月14日から17日まで静岡県三島市にある国立遺伝学研究所で,日韓中バイオインフォマティクス・トレーニングコースを開催します。
このコースは日韓中の若手研究者を対象とした定員30名のトレーニングコースで,日韓中および南アジアの研究者が講議と実習を行ないます。 日本からは講師として国立遺伝学研究所の五條堀孝教授・舘野義男教授・斎藤成也教授が参加します。
講議の内容などを掲載したサイトを近日中に公開する予定です。 興味をお持ちの方はサイト公開後に詳細を確認の上,どうぞご応募下さい!
  • 日時:3月14日(火)から17日(金)まで
  • 場所:国立遺伝学研究所(静岡県三島市)
  • 対象:バイオインフォマティックスの研究を行っているか行おうとしている大学院生かポストドクで,日本国籍を有し,英会話ができる人(定員10名)
  • その他:使用言語は英語・受講料は無料です
  • 講習会のサイト
 ■ARSA 機能改善 
ARSA (All-round Retrieval of Sequence and Annotation) は DDBJ が提供しているキーワード検索システムです。 高速 XML 型データベース検索エンジンを採用しているため複雑な検索条件や大量のヒットがある条件での検索が高速で行なえる点と,国際塩基配列データベースのフラットファイル (FF) 形式で定義されている Feature/ Qualifier を個々に選択して詳細な検索条件を指定することができる点が特徴です。
1月10日から19日にかけてサービスを停止してシステムメンテナンスを行ない,以下の点が改善されました。 サービス停止期間はご迷惑をおかけしました。 今後もどうぞご利用下さい。
  • データ更新のために夜間(毎日2,3時間)停止する必要が無くなりました
  • FlatFile ならびに XML の表示とページの移動が早くなりました
 ■大腸菌 W3110 株完全長ゲノム配列の公開 
DDBJ では,大腸菌 W3110 株 (Escherichia coli K-12 W3110) の完全長ゲノム配列の公開を行ないました。 アクセッション番号は AP009048です。
大腸菌 K-12 株のゲノムアノテーションについては,Marine Biological Laboratory (MBL) の Monica Riley が中心となり,2003年と2005年の2回にわたりannotation workshop が開かれてきました。 同 workshop では日本から 奈良先端科学技術大学院大学基礎生物学研究所, DDBJ が参加し,米国で配列が決定された MG1655 株と日本で決定された W3110 株の各ゲノムに対する最新のアノテーションづけが行なわれました。
workshop の成果に関する論文が,2006年1月5日付の Nucleic Acids Research より発表されています。 Riley M, et al. Escherichia coli K-12: a cooperatively developed annotation snapshot--2005. Nucleic Acids Res. 2006 Jan 5;34(1):1-9.
大腸菌は,分子生物学,ゲノム配列解析,システム生物学などの様々な生物学分野において用いられる重要な生物の一つであり,今回のゲノム配列公開による最新で正確なアノテーション情報の提供は,学術見地から見ても非常に有意義であると思われます。
 ■微生物ゲノムの新規登録と更新状況 
2005年10月4件
2005年11月12件
2005年12月28件
2006年01月48件
微生物ゲノムの公開件数は1995年以来順調に増加し,この2006年1月には Genome Information Broker (GIB) から305件(真核3件を含む)を公開するに至りました。 新規登録が増え続けることに加えて,登録後の更新が右の表のように著しく増加しています。
微生物ゲノムをダウンロードしてお手元でご利用の場合は,最新版か否かご確認下さい。

 ■DDBJ リリース 64 完成と index file の分割 
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。 12月28日に DDBJ リリース64 を完成しました。 リリース64 のエントリ数は 52,272,669,総塩基数は 56,098,558,378 塩基です。
これまで dbjacc.idx, ddbjgen.idx, ddbjjou.idx, ddbjkey.idx というファイル名で提供していた index file のデータ量が増加してきました。 今回のリリースから 2GB を超える index file を 1.5GB の単位で分割することになりましたのでご注意下さい(今回は ddbjgen.idx 以外のファイルが分割されています)。
詳細は リリースノート をご覧下さい。 FTP による定期リリースおよび新着データのダウンロードサイトはこちらです。

 ■Nucleic Acids Research に DDBJ に関する論文掲載 
Nucleic Acids Research では,毎年1月1日にデータベース特集号が発行されています。 本年1月1日発行の Vol. 34, Database Issue に,DDBJ の活動ならびにDDBJ の運営するデータベースを紹介する下記の論文が掲載されました。
  • DDBJ の活動の紹介
    DDBJ in preparation for overview of research activities behind data submissions. D6-D9
    内容:INSDC の結成,新規データベースの公開等の活動報告。 特に,INSDC に登録されたデータの詳細な分析内容が Breakdown Statistics(統計の詳細)として DDBJ HP 上で公開されたことが詳しく記載されています。

  • 新規データベース:BodyMap の紹介
    BodyMap-Xs: anatomical breakdown of 17 million animal ESTs for cross-species comparison of gene expression. D628-D631
    内容:BodyMap-Xs は組織や細胞ごとの遺伝子発現データベースで,EST データを基に作成されています。

  • 新規データベース:RAP-DB の紹介
    The Rice Annotation Project Database (RAP-DB): hub for Oryza sativa ssp. japonica genome information. D741-D744
    内容:RAP-DB は,国際イネゲノム解読プロジェクトの成果に基づくイネの高精度アノテーション情報を収録したデータベースで,昨年12月に公開されました。
    関連記事
 ■DDBJ スタッフ着任 
国立遺伝学研究所 生命情報・DDBJ研究センター 遺伝子発現解析研究室の小笠原 理 助手が DDBJ 14人目の スタッフとなりました。 小笠原助手は(株)情報数理研究所から DDBJ のプロジェクト研究員を経て2006年1月より遺伝子発現解析研究室助手に着任し,DDBJ の活動に参加しています。
小笠原助手より着任の挨拶です。
「2006年1月より DDBJ のスタッフに加えていただきました。 データベースの検索システム周りのことを含めて DDBJ に貢献できればと考えています。 これから覚えていくべきことが多いかと思いますが,よろしくお願いいたします」


 ■getentry EMBL フォーマットでの表示廃止 
getentry (get-entry@nig.ac.jp) は DDBJ が web サーバと E-mail サーバで提供するアクセッション番号などによるエントリ検索システムです。
結果出力を複数の形式から選択することができますが,そのうちの1つである「フラットファイル (EMBL)」は利用者が少ないため2006年1月16日をもって廃止いたしました。 この「フラットファイル (EMBL)」は検索対象として「DNA データベース」を選択した場合に使用可能な出力形式の1つでしたが,今後は以下の形式より選択してご利用下さい。

DNA データベースを選択した場合
   フラットファイル(DDBJ):DDBJ のデータ公開形式で出力
全塩基配列 FASTA:塩基配列の全長を FASTA 形式で出力
CDS アミノ酸配列 FASTA:各 CDS 領域のアミノ酸翻訳配列を FASTA 形式で出力
CDS 塩基配列 FASTA:各 CDS 領域の塩基配列をFASTA 形式で出力
Quality Value:HTG および HTC の一部データで提供されている Phrap 値を表示
DDBJ-XML:DDBJ が設計した XML 形式(DDBJ-XML)で出力
INSD-XML:INSD が共通で使用する DTD により設計したXML 形式で出力
 
Protein データベース* を選択した場合
   default:指定したデータベースの公開形式で出力
アミノ酸配列 FASTA:アミノ酸配列を FASTA 形式で出力
塩基配列 FASTA (for DAD):アミノ酸配列をコードする塩基配列を FASTA 形式で出力
*UniProt, PDB, DAD, PRF, Patent

 ■DDBJ が提供するデータに関するおわび 
相同性検索 EST ディビジョンの検索不備についてのおわび(X.tropicalis・旧名 S.tropicalis
DDBJ の相同性検索では検索対象ディビジョンの指定が可能で,さらに EST については,登録数の多いものから生物種を選択して指定することができます(DDBJ 全データ,DDBJ 新着データ選択時に有効)。
2004年に,その ES Tの1つである Silurana tropicalis の生物名が Xenopus tropicalis に変更されました。 しかしながら,データ作成処理および検索ページ表記変更に漏れがあり,S. tropicalis のままとなっていたため,相同性検索実行時に EST の X. tropicalis ディビジョン指定での検索ができず,S. tropicalis ディビジョンを指定した場合には正しく検索が行なわれませんでした。 詳細は下記の通りです。
 
期間:2004年7月より2006年1月20日まで
影響のあったサービス:PSI-BLAST を除く相同性検索の全サービス(WWW,E-mail とも)
状況:検索対象ディビジョンとして EST の S. tropicalis ディビジョンを指定して検索を行なってもヒットしない(EST division を 「select-all」または「上記以外」を指定した場合にはヒットした)。
対応:データ作成処理および検索ページの表記を修正し,現在は正しい検索結果が得られます。 今後の防止対策として,データのチェックシステムを導入する予定です。
 
正しい検索ができない状況が長期間にわたって続いていたことにより,ユーザの皆様に多大なご迷惑をお掛けいたしましたことを深くお詫び申し上げます
 
 
リリース63 での PRI division データ公開不備に関するおわび
DDBJ リリース 63 (2005年9月) において,PRI division データとして公開されるべき 37 エントリが誤って HUM division として公開されていました。 詳細は下記の通りです。
 
該当リリース:DDBJ リリース63 (2005/09)
原因:GenBank 由来データを DDBJ フォーマットに変換する際の HUM division 分離プログラムの不備
対応:リリース 64 (2005年12月)では,PRI division データとして公開されます。 getentry および Anonymous FTP では修正済みです。
影響のあったサービスおよび影響のある期間:下記を含む DDBJ の全てのサービス
- getentry (2005/10 上旬 - 2005/12/28)
- Anonymous FTP (2005/9/30 - 2005/12/28)
- SRS、ARSA、相同性検索 (2005/10 上旬 - 2006/1 中旬)
該当エントリ一覧
 
データが正しく表示されずユーザの皆様にご迷惑をお掛けいたしましたことを深くお詫び申し上げます。
 
 
VRL division データ公開不備に関するおわび
2000年から2001年にかけて EST division データとして公開され,その後 division を VRL に変更した52エントリの公開が一定期間行なわれていませんでした。 詳細および対応は下記の通りです。
 
公開されていなかった期間:DDBJ リリース46 (2001/07) から63 (2005/09) にかけて
原因:Division 変更時のデータ処理に関する不備
対応:これらのエントリは11月30日に公開しました。登録者の方には DDBJ よりおわびのご連絡を差し上げました。
影響のあったサービス:
- anonymous FTP および検索解析サービス(getentry を除く*)から利用できませんでした。
- * getentry では検索対象となっていましたが,エントリが一部古いフォーマットで表示されていました。
- リリース61まで行なっていた磁気媒体でのデータ配布にもこれらのエントリは含まれていませんでした。
該当エントリ一覧
 
長期間にわたり,公開されるべきエントリが正しく表示されずご迷惑をお掛けいたしましたことを深くお詫び申し上げます。
 ■DDBJ スタッフコラム13 
グーグる

菅原 秀明
国立遺伝学研究所 データベース運用開発研究室 教授

「グーグる」は,Google を使ってインターネットを検索することを意味する五段活用動詞です。 例えば,静岡茶を楽しみながら遺伝研の桜を愛でているときに,不粋にも「blast の URL を教えて下さい?」と聞かれた時には,冷たく「グーグってみれば」と応えましょう。 また,「グーグる」人々を「グーグらー」と言います。

日本の Googleサイト で blast を「グーグって」みました。 Google が公称している80億余りの URL のサイトから該当した4,700万ページのうち上位10件が,瞬時に,ブラウザーに表示されました。 第1位は,2001年トニー賞と2002年エミー賞を獲得したショー blast の日本公演のサイトでしたが,第2位に NCBI のサイト,第3位に DDBJ のサイトが表示され,10位以内に,WU(ワシントン大学)のサイトと GenomeNet のサイトが入っていました。 各サイトのタイトルに加えて対象サイトから数行のテキストが抜き出されて表示されたので,日本公演のチケット購入に寄り道することなく,相同性検索の blast にたどり着くことができました。
もう1件, DDBJ が誇る高速エントリー抽出システム の名称 getentry で「グーグって」みました。 第1位に DDBJ の getentry が表示され,一安心しました。 Getentry は日常用語でないので期待通りの結果かと思いましたが,第2位以下に java や visual studio などで使われるメソッド名が並んでいましたので,この検索結果には満足して良いでしょう。

このように,単純な操作で,網羅的に,高速に,満足度の高い結果を得られるので「グーグらー」が増殖してきたのでしょう。 そのページをリンクしているサイトの数に重みを加えた指標の PageRank の順に該当ページが並べ替えられて表示されるので,満足度が高くなると言われています。 一方で,「グーグらー」にとっても気になることもあります:

  • 膨大な該当ページ(blast の場合4,700万件)のトップ10だけ見ていればよいのだろうか
  • 該当ページの分布はどうなっているのだろうか
  • 機能していないページに行き当ってしまうこともあるが

Google が決して全能の検索神ではないとすれば,いろいろな工夫が考えられます。 まず,複数の検索エンジンからの結果を組合わせて表示することが考えられます。また,検索結果の取り扱いに工夫を凝らすことも考えられます。 例えば,ビビジモ の工夫です。 ビビジモを使ってblastを検索すると,約2,000万件のうちの190件が該当するというメッセージが表示されます。 その下に Web ブラウザーの左側のフレームに Search や Apple, Advanced Computation といったカテゴリーが該当件数と共にツリー構造で表示されます。 また,カテゴリー名をクリックすると該当ページの具体リストが右側のフレームに表示されます。 ビビジオのカテゴリー作りの仕組みはなかなか魅力的です。予め設定したカテゴリーではなく,該当ページの一部のテキストを言語解析および統計解析してカテゴリーを動的に生成する点です。 ビビジモのほかに,グロッカ も面白い検索システムです。検索結果の概要がビビジモと同様に階層的カテゴリーのリストで示されますが,グロッカの興味深い点は,階層的なカテゴリーがリスト型式だけでなく,ベン図の形式で,各カテゴリーが円で描かれるグラフィックで表示される点です。 Blast で検索した場合,blast の円の中にまず最上位のカテゴリーが表示され,その中の Blast Search の円をクリックすると,Blast Search 円が最前面に拡大表示され,その中に,下位のカテゴリー Blast server, Similarity Search, Local Alignment, NCBI Blast ならびに Protein Database に相当する円が描かれます。 このグラフィックの色合いもなかなか良いです。

さて,「グーグらー」はなぜここまで増え続けてきたのでしょうか。 Google の大規模なコンピュータのネットワークや PageRank の技術によって実現された高速性や検索結果の精度にあることは間違いありません。 しかし,それだけでしょうか。玉石混交はあっても膨大な多種多様な情報資源がオンラインで利用可能になっていたからこそ「グーグる」意味が出てきた,と考えます。

国際塩基配列データベース には5,000万件500億塩基対以上の多様な塩基配列データとその生物学的意味が蓄積されています。 このデータベースの網羅的かつ高速な検索は blast で実現されていますが,まだまだビビジオやグロックに類した工夫をしていく余地があります。 また,キーワード検索については,検索速度についても,検索結果の精度についてもデータの品質が均一でないことを受け入れた上で,大幅に向上させたいものです。 例えば,データベースの内容と利用例を分析した結果に基づいて,自動分類・圧縮したエントリーを複数の観点から提供していきたいものです。 DDBJ では現在キーワード検索システムとして SRS に加えて ARSA を試験公開していますが,いずれは「アルサん」(ARSA で検索する人々)が増殖し,「グーグった」結果の最上位に ARSA が来ることでしょう。

(注)ここに引用した Google, Vivisimo および Grokker の検索結果は,2006年1月28日時点のものです。



  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行: 日本 DNA データバンク (DDBJ)
  大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111
Last modified: Oct. 07, 2011