|
■年度末はなんだか慌ただしいですね
隔月公開の DDBJ メールマガジン第24号 web 版です。
メールマガジンに関するご質問やご意見がありましたら ddbjmag@ddbj.nig.ac.jp までどうぞ。
DDBJ は 提供しているツールに関する講習会「DDBJing 講習会」を全国各地で開催しています。2月2-3日に大阪大学中之島センターで「第14回 DDBJing & 第2回 PDBjing 講習会 in 大阪」を開催いたします。 今回は大阪大学蛋白質研究所ならびに PDBj(日本蛋白質構造データバンク)との共同開催で,DDBJ ならびに PDBj が提供しているアミノ酸・タンパク質に関するサービスの利用法についての実習と,タンパク質およびゲノム研究に関する講議を行ないます。 PC を用いた実習の時間を多く設け,より実践的な知識を身に付けていただける講議内容を予定しています。 開催日が間近ですが,席に若干の余裕がありますので興味をお持ちの方はどうぞお申し込み下さい。 写真は 前回 の様子です。 東京農業大学で開催しました。
3月14日から17日まで静岡県三島市にある国立遺伝学研究所で,日韓中バイオインフォマティクス・トレーニングコースを開催します。
このコースは日韓中の若手研究者を対象とした定員30名のトレーニングコースで,日韓中および南アジアの研究者が講議と実習を行ないます。 日本からは講師として国立遺伝学研究所の五條堀孝教授・舘野義男教授・斎藤成也教授が参加します。 講議の内容などを掲載したサイトを近日中に公開する予定です。 興味をお持ちの方はサイト公開後に詳細を確認の上,どうぞご応募下さい!
ARSA (All-round Retrieval of Sequence and Annotation) は DDBJ が提供しているキーワード検索システムです。
高速 XML 型データベース検索エンジンを採用しているため複雑な検索条件や大量のヒットがある条件での検索が高速で行なえる点と,国際塩基配列データベースのフラットファイル (FF) 形式で定義されている Feature/ Qualifier を個々に選択して詳細な検索条件を指定することができる点が特徴です。
1月10日から19日にかけてサービスを停止してシステムメンテナンスを行ない,以下の点が改善されました。 サービス停止期間はご迷惑をおかけしました。 今後もどうぞご利用下さい。
DDBJ では,大腸菌 W3110 株 (Escherichia coli K-12 W3110) の完全長ゲノム配列の公開を行ないました。
アクセッション番号は AP009048です。
大腸菌 K-12 株のゲノムアノテーションについては,Marine Biological Laboratory (MBL) の Monica Riley が中心となり,2003年と2005年の2回にわたりannotation workshop が開かれてきました。 同 workshop では日本から 奈良先端科学技術大学院大学, 基礎生物学研究所, DDBJ が参加し,米国で配列が決定された MG1655 株と日本で決定された W3110 株の各ゲノムに対する最新のアノテーションづけが行なわれました。 workshop の成果に関する論文が,2006年1月5日付の Nucleic Acids Research より発表されています。 Riley M, et al. Escherichia coli K-12: a cooperatively developed annotation snapshot--2005. Nucleic Acids Res. 2006 Jan 5;34(1):1-9. 大腸菌は,分子生物学,ゲノム配列解析,システム生物学などの様々な生物学分野において用いられる重要な生物の一つであり,今回のゲノム配列公開による最新で正確なアノテーション情報の提供は,学術見地から見ても非常に有意義であると思われます。
微生物ゲノムをダウンロードしてお手元でご利用の場合は,最新版か否かご確認下さい。
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。
12月28日に DDBJ リリース64 を完成しました。
リリース64 のエントリ数は 52,272,669,総塩基数は 56,098,558,378 塩基です。
これまで dbjacc.idx, ddbjgen.idx, ddbjjou.idx, ddbjkey.idx というファイル名で提供していた index file のデータ量が増加してきました。 今回のリリースから 2GB を超える index file を 1.5GB の単位で分割することになりましたのでご注意下さい(今回は ddbjgen.idx 以外のファイルが分割されています)。 詳細は リリースノート をご覧下さい。 FTP による定期リリースおよび新着データのダウンロードサイトはこちらです。
Nucleic Acids Research では,毎年1月1日にデータベース特集号が発行されています。
本年1月1日発行の Vol. 34, Database Issue
に,DDBJ の活動ならびにDDBJ の運営するデータベースを紹介する下記の論文が掲載されました。
国立遺伝学研究所
生命情報・DDBJ研究センター
遺伝子発現解析研究室の小笠原 理 助手が DDBJ 14人目の
スタッフとなりました。
小笠原助手は(株)情報数理研究所から DDBJ のプロジェクト研究員を経て2006年1月より遺伝子発現解析研究室助手に着任し,DDBJ の活動に参加しています。
小笠原助手より着任の挨拶です。 「2006年1月より DDBJ のスタッフに加えていただきました。 データベースの検索システム周りのことを含めて DDBJ に貢献できればと考えています。 これから覚えていくべきことが多いかと思いますが,よろしくお願いいたします」
getentry
(get-entry@nig.ac.jp) は DDBJ が web サーバと E-mail サーバで提供するアクセッション番号などによるエントリ検索システムです。
結果出力を複数の形式から選択することができますが,そのうちの1つである「フラットファイル (EMBL)」は利用者が少ないため2006年1月16日をもって廃止いたしました。 この「フラットファイル (EMBL)」は検索対象として「DNA データベース」を選択した場合に使用可能な出力形式の1つでしたが,今後は以下の形式より選択してご利用下さい。
グーグる
菅原 秀明 「グーグる」は,Google を使ってインターネットを検索することを意味する五段活用動詞です。 例えば,静岡茶を楽しみながら遺伝研の桜を愛でているときに,不粋にも「blast の URL を教えて下さい?」と聞かれた時には,冷たく「グーグってみれば」と応えましょう。 また,「グーグる」人々を「グーグらー」と言います。 日本の Googleサイト
で blast を「グーグって」みました。
Google が公称している80億余りの URL のサイトから該当した4,700万ページのうち上位10件が,瞬時に,ブラウザーに表示されました。
第1位は,2001年トニー賞と2002年エミー賞を獲得したショー blast の日本公演のサイトでしたが,第2位に NCBI のサイト,第3位に DDBJ のサイトが表示され,10位以内に,WU(ワシントン大学)のサイトと GenomeNet のサイトが入っていました。
各サイトのタイトルに加えて対象サイトから数行のテキストが抜き出されて表示されたので,日本公演のチケット購入に寄り道することなく,相同性検索の blast にたどり着くことができました。 このように,単純な操作で,網羅的に,高速に,満足度の高い結果を得られるので「グーグらー」が増殖してきたのでしょう。 そのページをリンクしているサイトの数に重みを加えた指標の PageRank の順に該当ページが並べ替えられて表示されるので,満足度が高くなると言われています。 一方で,「グーグらー」にとっても気になることもあります:
Google が決して全能の検索神ではないとすれば,いろいろな工夫が考えられます。 まず,複数の検索エンジンからの結果を組合わせて表示することが考えられます。また,検索結果の取り扱いに工夫を凝らすことも考えられます。 例えば,ビビジモ の工夫です。 ビビジモを使ってblastを検索すると,約2,000万件のうちの190件が該当するというメッセージが表示されます。 その下に Web ブラウザーの左側のフレームに Search や Apple, Advanced Computation といったカテゴリーが該当件数と共にツリー構造で表示されます。 また,カテゴリー名をクリックすると該当ページの具体リストが右側のフレームに表示されます。 ビビジオのカテゴリー作りの仕組みはなかなか魅力的です。予め設定したカテゴリーではなく,該当ページの一部のテキストを言語解析および統計解析してカテゴリーを動的に生成する点です。 ビビジモのほかに,グロッカ も面白い検索システムです。検索結果の概要がビビジモと同様に階層的カテゴリーのリストで示されますが,グロッカの興味深い点は,階層的なカテゴリーがリスト型式だけでなく,ベン図の形式で,各カテゴリーが円で描かれるグラフィックで表示される点です。 Blast で検索した場合,blast の円の中にまず最上位のカテゴリーが表示され,その中の Blast Search の円をクリックすると,Blast Search 円が最前面に拡大表示され,その中に,下位のカテゴリー Blast server, Similarity Search, Local Alignment, NCBI Blast ならびに Protein Database に相当する円が描かれます。 このグラフィックの色合いもなかなか良いです。 さて,「グーグらー」はなぜここまで増え続けてきたのでしょうか。 Google の大規模なコンピュータのネットワークや PageRank の技術によって実現された高速性や検索結果の精度にあることは間違いありません。 しかし,それだけでしょうか。玉石混交はあっても膨大な多種多様な情報資源がオンラインで利用可能になっていたからこそ「グーグる」意味が出てきた,と考えます。 国際塩基配列データベース には5,000万件500億塩基対以上の多様な塩基配列データとその生物学的意味が蓄積されています。 このデータベースの網羅的かつ高速な検索は blast で実現されていますが,まだまだビビジオやグロックに類した工夫をしていく余地があります。 また,キーワード検索については,検索速度についても,検索結果の精度についてもデータの品質が均一でないことを受け入れた上で,大幅に向上させたいものです。 例えば,データベースの内容と利用例を分析した結果に基づいて,自動分類・圧縮したエントリーを複数の観点から提供していきたいものです。 DDBJ では現在キーワード検索システムとして SRS に加えて ARSA を試験公開していますが,いずれは「アルサん」(ARSA で検索する人々)が増殖し,「グーグった」結果の最上位に ARSA が来ることでしょう。 (注)ここに引用した Google, Vivisimo および Grokker の検索結果は,2006年1月28日時点のものです。 ddbjmag@ddbj.nig.ac.jp
この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Last modified: Oct. 07, 2011
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||