最終更新日:2016.4.11.

DDBJ スタッフコラム

連載期間:No.12(2004年2月2日発行)〜 No.40(2008年10月8日発行)※最新の情報とは内容が異なる場合がありますのでご注意下さい。

1.電子ジャーナル化の波

国立遺伝学研究所 集団遺伝研究部門 教授 斎藤 成也

ここ数年の間に,生物学の分野でまともな学術雑誌に掲載された論文は pdf 形式のファイルで入手できることが当たり前になってしまった。もはや図書室に行って論文をコピーする必要はなく,インターネットを通じて論文の pdf ファイルを取得し,それをコンピュータの画面で見ることができるのだから,便利になったものだ。コンピュータ画面だと,カラーの図もきれいに再現されて見ることができるし,拡大したり,あるいはテキスト検索することも可能なので,はるかに論文が読みやすくなった。日本でも,科学技術振興機構が日本政府の資金を得て,J-STAGE というシステムを数年前に発足し,国内の学会が発行している機関誌の電子化を進めるひとつの核になっている。

論文コピーを格納しておくファイリングキャビネットももはや必要ない。図書室の様相も,今後は徐々に多数の雑誌の論文ファイルを納めた巨大なディスクを持つコンピュータ・サーバーが,論文バックナンバーがずらりと並んだ書架にとってかわってゆくだろう。現在はまだ多くの雑誌が印刷版と電子版の併用をしているが,いずれは電子版だけの形式に移ってゆくと思われる。

電子ジャーナルの本質的な課題は,このようなハード面ではなく,経済面を中心とするソフト面である。雑誌の電子化が進むと,所属研究機関で機関購読している雑誌を個人購読していた研究者は,購読を中止するようになってゆくだろう。かつては,大きな大学の場合,歩いて何分もかかる中央図書館まで行くのが億劫だから,個人購読するという人もあっただろうが,同じ機関のインターネット・ドメインなら自由に機関購読している雑誌を自分の研究室のコンピュータで見ることができるようになった今,個人購読の必要性は減少するからだ。

学会の機関誌の場合には,学会費を支払うことには,学会の年次大会で発表するという権利も通常付与されているので,仮に電子雑誌化しても個人購読をやめる(退会する)という人はすぐには増えないだろう。しかし,機関誌を発行している学会では,多くの場合支出の大部分を機関誌の印刷配布が占めている。電子化して印刷しなくなったら,年会費を安くすべきだという意見が出てくる可能性がある。国内学会の場合には,年次大会で発表するという重要性から,この程度の問題で収まるだろうが,国際学会が発行する機関誌の場合には,学会の年次大会に参加するよりも,機関誌を購読している,という色合いが強い。このため,機関誌が成功して多数の研究機関が機関購読を始めるほど,個人購読が減少するという可能性がある。実際,私自身が,電子雑誌化する前に,ある国際誌を発行している国際的な学会を退会したことがある。この場合,図書室に行
けば見ることができるからという理由だった。

この論理は,国際学会が発行している機関誌だけでなく,商業誌にもあてはまる。おそらくこのような危惧もあってだろう,最近は機関購読の場合の雑誌購読費が毎年どんどん上昇している。欧米の数社による国際学術雑誌の寡占化も,価格上昇に拍車をかけている。このような状況を憂慮した米国の大学図書館連合が,SPARC (Scholarly Publishing and Academic Resources Coalition) を結成し,多数の学会の機関誌を束ねることによって,出版の寡占化をはばみ,全体の購読料を安く押さえようとしている。日本でも,昨年国立情報学研究所に SPARC Japan が設置されて,活動が始まっている。また,米国では PLoS (Public Library of Science) という組織があらたに組織され,高いレベルの論文をオンラインで無料閲覧できるシステムが稼働を始めた。もちろん,すべての経路が無料ではなく,たとえば,PLoSBiology という雑誌に投稿する場合,高額の投稿料が要求されるようだ。

このように,電子ジャーナル化によって,生物学を含む自然科学の世界はどんどん変容している。過去5年間に生じた急速な変化を考えると,今後の5年間の変化も,おそらく大きなものになることは間違いないだろう。私にはそれを占う能力はないが,これもグローバル化の波のひとつだということは言えるだろう。

2. 自滅する生物情報学者?

国立遺伝学研究所 大量遺伝情報研究室 助手 金城 玲

世の中には生物学の研究者に有用なデータベースが無数に用意されている。
DDBJ/EMBL/GenBank などのような,いわゆる1次データベースはもとより,それ等の情報を加工・補強した2次,3次データベースなどの大多数がインターネットを介して無料で自由に,しかも簡単に使えるようになっている。また,整理された情報の増大に伴って,それらを解析するソフトウェアも広く普及してきた。
たとえば,EMBOSSや CCP4 などでは,核酸やタンパク質の配列および構造を解析するためのソフトが収集・配付されている。これらの使い勝手の良いデータベースやソフトの発展は(広い意味での)生物情報学者(bioinformaticist というらしい)の努力の成果である。

ところで,これほどまでに環境が整ってくると,出来合いのソフトを入手して,出来合いのデータベースをいくつか調べ,得られたデータを「ひとひねり」すると,ちょっとした「研究成果」が得られるようになる(実際にそのような論文はちらほら認められる)。
しかもそのようなスタイルの研究は,バイオインフォマティクスの専門家でなくても可能である。実際にはスクリプト言語などを覚えて,ちょっとしたプログラムを書く必要があるが,bioperl や bioruby などを利用すれば,すでに用意されているライブラリを「カットペースト」でつなぎ合わせて大抵のことはできてしまうだろう。

ここに一つの疑問が生まれる。生物情報学の研究者は,頑張ればがんばるほど,彼らが作ったデータベースやソフトを使ったオリジナルの研究ができなくなるのではないか? 斯くして,研究者としての生物情報学者は消えてゆく・・・(?)

いやいや,それは早計だ。
現在のところ,ゲノムや遺伝子発現データなどの量に圧到され,それらを整理・分類すれば(小さいかもしれないが)新しい発見がいくらでもできるように思われる。しかし,そのような状況が一段落した後こそ,研究者あるいは理論家としての生物情報学者,さらには 生物情報学という分野そのものの真価が問われるときだと思う。もっとも,そのとき「生物情報学」という呼称が存在するかどうかは定かではないが・・・

3. 科学を促す空間の力

国立遺伝学研究所 遺伝子発現解析研究室 教授 大久保 公策

つい先日UKでケンブリッジ大学の古いカレッジをいくつか見て歩く機会を得た。殺風景な狭い路地を圧迫する薄汚い石壁にあいた木作りの粗末な扉。その中に隠されたキャンパスを見たときの衝撃は危機感ともいえるものであった。直感的に科学を促す力を感じたのである。これまでに同じ経験をした先生方はこの経験をどのように整理したのだろうか?「日本の大学ももっと美しく庭園は芝生で壁で囲まれて市民を拒絶するような威圧を見せるべきだ」というような安直な考えや「ここで研究したい。この人たちの仲間に入れてもらって同じ恩恵にあずかって勝負したい。」というようなナイーブな気持ちには整理できなかった。ただいわくいいがたい強い危機感のようなものを生じた。この危機感はいったい何なのか?

手入れの行き届いた芝生を囲むように明らかに100年以上経年しているレンガ造りの寄宿舎らしき建物がある。その美しさは「人間が作れる最も美しいもの」の類であると思う。私は絵画や芸術に造詣はないが多少の名画なら見たことがある。建物ならドイツの城もフランスの宮殿もバンクーバーのビルゲイツ邸も遠巻きに見たことがある。しかし衝撃といえるような感動は受けたことがない。何がこんなに美しく見せるのかとしばしその特徴を分析した。細部の多さ,不均一だが類似した色彩の不規則な繰り返し,だいたいまっすぐな手書きの線のような輪郭である。よく観察するとどのレンガも形大きさ色が違っておりさらに改修の年代によってと思われる大きな色調の変化がある。それが何百年も繰り返された結果いわく言いがたい複雑さをもっている。明らかに作った当初より美的になっているであろう。どうしてこんなすすけた褐色の不細工な建物がこんなに綺麗なのか?直感的に表現すればそれは生き物のように美しい。さて生き物のような美しさとは何かと考えると,「複雑なものに感じる好感」乱雑な複雑ではなく精緻な複雑,機能的であるが機械的でないといえるかもしれない。自然の緑の美しさも小さな葉っぱの表裏が無数に集まったニュアンスの美しさで地面の美しさは細かい隆起と多色の石の作り出す複雑な模様の美しさでなかろうか。この複雑さに対する嗜好は明らかに経験で生まれ年とともに熟成される。味覚を例にとると明らかであろう。チーズ 燻製などの昔はむしろまずいと感じた臭みや苦味など 甘い 辛い 旨い では割り切れない
ものが老いるとともに好きになる。服地では三つ杢といわれる同系統3色使いの織物がきれいで糸の太さはホームスパンツイードのように不均一なほうが好ましく思う。成熟した人間の感覚に訴える美しさが複雑さの美しさなのであろう。花一輪や身近の自然に年をとるほどに美しさを感じることもよく知られた事実である。脳がたいていのものを経験して退屈しているときに細部にも関心を向けると認識しつくせないと解って喜ぶ感じ とでも表現すればよいだろうか。深い とか 飽きない とか 渋い とか日本語にはこの感じを表そうとする言葉は多い。これらの複雑な美しさは人工物とはいえ食物の場合は明らかに微生物の力をかりている。服地の場合にも自然色素の複雑なニュアンスを借りたうえで手作業によって紡ぎだされる。建物も素材は土でありそれを手作業で積み上げ修復を繰り返すことで美しさが出ていることに気づいた。天然素材と手作業と手間。つまりはケンブリッジの建物にはマニュファクチュアの美しさがあるのかと納得した。

ただし美しい服地には感動するが危機感は抱かない。危機感を生じさせたのはこれが大学であり,その空気がただならぬからである。この自然と手作業の美しさが作り出す空間は知的な活動を刺激するように感じた。セントジョン大の庭でりんごが落ちれば自分にも引力が見えるような気がした。この環境の力は脳波でも測ればすぐにわかるような気がした。そういえば日本でこの種の環境が与えられているのは寺である。巨大な寺には木造の細部に富んだ建物があり非常に手入れの行き届いた庭をもっている。禅寺は日本人の作り出した思索のための環境であったのか。日本の大学に思いを馳せたとたん,全くこの科学を促す機能が欠落していることに暗澹たる気持ちになる。この劣等感が危機感の原因かもしれない。これまで経験した大学や研究所は視覚的にも聴覚的にも人工的な雑音に満ちておりそこに入るとむしろ気がめいる集中できないような「たこ部屋」でしかなかった。形は何とか西洋型をまねているが美的でなく成熟していない。雑多な様式が場当たり予算で積み上げられたテーマパークのようである。すると自分たちのしている科学は山谷の多い日本に無理やり英国地形を作り出してやっているゴルフのようなものなのか?やたらと開発に予算がかかり利権がつき物で,大型開発には議員さんが絡む。これは国民のゴルフ場に対するイメージだと思うが,研究者がこれを聞くと他人事には聞こえないのではなかろうか?地理的必然にかけたゴルフは資本のゲームではあるがスポーツとしては永遠に日本では熟成されない運命にある。このまま科学する環境について深い理解を形成できずじまいに終われば日本の科学もゴルフと同じ運命かもしれない。 (続く)

4. 歴史的遺産を永遠に!

国立遺伝学研究所 データベース運用開発研究室 助手 阿部 貴志

「祇園精舎の鐘の声 諸行無常の響きあり」
平家物語であまりにも有名な一文である。
栄枯盛衰,形あるものは壊れる…,万物は“無常”だ。 頭では理解していても,実際にその喪失を目にすると,誰しも心を痛めるのではないだろうか。 3年前,タリバン政権によるバーミヤンの石仏破壊というセンセーショナルな映像が各TV局で流された。 ただ一つの政権の目的のために,いとも簡単に歴史的遺産が破壊されていく様に,私は憤りとやるせなさで一杯になったものである。 一方で,高松塚古墳の「白虎」の壁画のように,保存・整備にかかわってきた専門家の努力が微生物や自然環境の力に対して劣勢な例もある。 (それから,スケールは小さくなるが,お馴染みの某お宝鑑定TV番組を見ていると,欠けたり,カビが生えていたりといった保存状態の悪い“名品”が出てくる。 その度に私は自分のお宝でもないのに,つい溜息をついてしまう。)
これだけ科学が発達した現代でも,やはり諸行無常なのであろうか?

なんと,近年のソフト・ハード両面に見られるコンピュータ技術の発達を受けて,“歴史的遺産の電子化”が始まりつつあるという。 金閣寺のような建造物から,茶器のような小さなものまで,3次元でデータを取得してデータベースに格納し,デジタル情報として半永久的なアーカイブを作っていこうという努力である。 学問的意義の大きさはもちろんの事,これにより,後世に歴史を伝えるという我々人類の使命を,より完全な形で果たす事が出来るのである。 この有用性は計り知れない。

ここ DDBJ では,塩基配列とそのアノテーションといった生物情報をデータベース化し,管理している。 これら生物情報も立派な“歴史的遺産”となると,私は思っている。 絶滅の恐れのある生物種はいうまでもなく,研究者が苦労して開発した突然変異体は常に散逸する恐れが高い。 突然変異体の形態の3次元デジタル像をそのゲノム情報とともに保存していくことは,歴史的に大きな意義があると思う。 現在の DDBJ の情報資源は,産業上有用な微生物の探索研究や,遺伝子の発現制御研究など,科学的研究に使われる事が多いが,実は,多様な生物をミクロな視点から後世に伝えていくという悠久の夢を紡いでもいるのだ。

5. 信長と情報

国立遺伝学研究所 遺伝子機能研究室 教授 舘野 義男

「織田信長の全国制覇への道は,桶狭間の戦での勝利から始まった」とよく云われる。

永禄3(1560)年5月17日,今川義元は2万5千(4万とも云われる)の大軍を擁し,織田の各砦を攻め落とす準備をしていた。このままでは,信長は云うに及ばず,織田家の滅亡は必至であったろう。「攻められるよりは攻めることだ」,きかん気の信長はそう思った。だが,劣勢の兵力でどう攻めるか。どう勝利を収めるか。あの奇跡の戦いとも云われる,桶狭間の作戦は,この時から信長の頭にあったのだろう。信長の超時代的な頭脳は,「人間五十年...」の舞と同調し働きはじめた。

さて,時刻は5月19日の正午にさしかかっていた。義元は,今川軍が織田の鷲頭と丸根の砦を攻め落としたことを聞いて機嫌をよくし,陣中で謡曲を唄っていたという。この頃,信長は二千の軍勢とともに,織田軍前線の拠点である善照寺砦に陣取っていた。彼はあることを待っていた。やがて,簗田出羽守政綱という豪族から,「今川義元殿,桶狭間にあり」という情報がもたらされた。信長は,密偵を送りこみ,敵の動きを探っていたのである。この豪族もその密偵の一人だったのだろう。

この情報がきっかけで,信長が仕掛けた桶狭間の合戦は始まる。合戦の様子は映画や小説などでよく知られているように,織田の軍勢が,その10倍以上もの今川勢を破り,義元を滅ぼす。この時,義元を仕留めたのは,織田軍の毛利新介という小兵だった。

合戦の後,信長の論功行賞が催された。「一番手柄は,毛利新介」と誰もが予想したろう。しかし,信長はそうはしなかった。一番手柄は,例の情報を提供した,簗田政綱に授けたのである。信長は,戦いでの働きよりも,重要な情報の提供を重視した。彼の超時代的な考えを如実に示している判断といえよう。

情報の重要性は,第二次世界大戦での日本軍の敗戦でも明らかだが,科学の研究でもまた然り,などと450
年も経た現在,云うのも可笑しいか。信長が嗤っている。

それにしても,情報通だった信長が,全国制覇を目前に,なぜ本能寺で無惨な最後を遂げることになったのか。心の闇までは情報が行き届かないことは,昔も今も変わりはないのか。

6. Medicoinformatics

国立遺伝学研究所 遺伝情報分析研究室 助手 鈴木 善幸

曲がりなりにも医師免許と少なからぬ良心を持っているつもりである者として,自分のやっていることがどうにかして病気の治療なり予防なりに役立ちはしないかという考えはある。というか最近そういう考えを少しだけ持つようになった。多分齢のせいだ。私は若い頃の紆余曲折の後,分子進化学という分野に身を置かせて頂いて塩基配列やアミノ酸配列から有用な情報を取り出すべく悪戦苦闘の日々を送っている。巷で言う所のbioinformatics の一端である。最初のうちはとにかくひたすら面白くて,何を読んでも何をやってもただただ感動していた。しかしながら時間が経つにつれてだんだんとちっとやそっとのことでは驚かなくなり,果ては自分は一体何がしたかったのかとまで考えるようになってしまった。そして何と結局は当の昔に興味を失っていたはずの医学に少しでも役に立ちたいなどと考えるようにまでなってしまったのである。といっても少しだけであるが。

そんなわけで,自分が知っている限りの bioinformatics のうちで病気の治療や予防に繋がりそうなものが一体どれだけあるのだろうか,そしてそういう研究を集めて medicoinformatics なんて名前にでもして本でも書こうかしらなどと時々考えてみたりする。さては誰か同じようなことを考えてるんじゃないかと Yahoo で検索してみると,どうやら medicoinformatics という言葉はないらしい。しめしめ,英辞郎にもない。じゃあ日本語訳は医療情報学?とか思ってもう一度検索してみると,何とヒットするではないか。それどころか学会まである。ここまでか。英語表記は medical informatics あるいは medinformatics というらしい。なるほど確かにmedicoinformatics より medinformatics の方が格好いい。でもよく読むとこの medinformatics なるものはどうやら私が考えているようないわゆる我々が想像する bioinformatics の一部といった極めて度量の狭いものではなく,電子カルテだの遠隔医療だのといったものまで含んだ途轍もなくスケールの大きなもののようである。やや残したか。でもまあ例え自分が考える medicoinformatics が medinformatics に含まれていたとしてもその部分だけ medicoinformatics だと言い張ればいいか。

何気に medicoinformatics は生き残ったとしよう。じゃあその中身は何だっけ?それは bioinformatics で医学に役立ちそうなもの。無い頭で今まで考えて行き着いた先は,まず病原性ウイルスの分子進化学的研究によって何かワクチンの開発に結びつくような知見が得られるんじゃないかということ。それから SNP なんかの集団遺伝学的解析で疾患感受性遺伝子を同定することによって病気の治療法開発に役立てられるんじゃないかということ。まで。あとはない。恐らくこれだけの事でも本にしたら相当なものが出来上がるには違いない。でも自分がやっていることが医学にこれだけしか役立たないのかと思うと何故だか微妙に嫌だし,もっと役に立つことがある筈だという気持ちが常に自分を支配して追い詰めている。苦しい。といってもやっぱり少しだけなのだが。

そんなことを時々考えている。

7. 真空管1本とPC1個と細胞1個

国立遺伝学研究所 集団遺伝研究部門 教授 斎藤 成也

1946年に米国ペンシルベニア大学で開発された ENIAC は,電子計算機の草分けだった。当時まだ半導体は発明されておらず,17468本の真空管を使っていた(詳細は,ウィキペディア を参照されたい)。このため,真空管が故障するたびに,計算が途中で終わってしまったという。というこの文章を書き終わってしばらくしたら,文章作成に使っていたPCの電源が突然切れてしまい,また立ち上げるという羽目になってしまった。

それはともかく,現在では,真空管1本は,超巨大PCクラスターのPC1個に相当するだろう。真空管を知らない世代の方もいると思うので,簡単に説明しておくと,ガラスで作った管の内部の空気を大部分とりさって,真空に近い状態にしてあるのが,「真空管」という名前の由来である。そこには,単純なオン・オフ回路があり,簡単に言えば真空管1本は,半導体1個に対応する。現在使われている典型的なパソコン(PC)のCPU(Central Processing Unit)1個に,どれだけの数の半導体が使われているのか,よく知らないが,おそらく軽く100万個を越えるのではなかろうか。

真空管と違って,パソコンは1台だけで立派なコンピュータである。現在の地球上には,おそらく億単位の台数のパソコンが存在するだろう。このように身近なものになったので,計算速度を増加させるために,これらのパソコンをたくさんつなげて分散処理しようという発想が生じるのは,当然だろう。これがPCクラスターである。

計算機ではないが,私は中学生のころスタートレック(当時の日本のテレビでは「宇宙大作戦」という名前だった)のファンだったので,あのシリーズからヒントを得て,手の平に乗るような小さな発電機というか,エネルギー発生装置が無数にちりばめられているような宇宙船を夢見たことがある。

このような傾向の人間にとって,PCクラスターの巨大化は,コンピュータ技術の当然の方向である。実際,私の研究室では,dualCPU のPC16台と15台からなる2セットのPCクラスターを導入して,比較ゲノム解析などに用いている。ちなみに,これらPCクラスターのニックネームは,thinker16 とmeditator15で ある。

国立遺伝学研究所の電子計算機棟には,64台のPCクラスターが2セットあるほか,もっと高級なサーバークラスのコンピュータを128台連ねたものも使われている。こちらも,いろいろなニックネームがあるが,それらの紹介は,これらを管理しているグループの人にまかせることにして,PCクラスターについてもう少し話を進めよう。

2個のCPUを1台のパソコンに搭載した dual PC は,現在一般的なものになっているが,普通の研究者ひとりひとりが,ちょっと複雑なソフトウェアや膨大なデータ・文書ファイルを扱う傾向はますます強まってゆくと思うので,個人で多数のPCを使うことが一般化すると考えられる。また,大規模なシミュレーションには,巨大な計算パワーが必須なので,このような研究分野には数万,数十万個のCPUをつなげたPCクラスターがいずれ登場するだろう。

我々多細胞生物は,名称からもわかるとおり,多数の細胞から成り立っている。細胞は自立しているという点で,1個のPCと似ているが,ちゃんと分裂して2個になることは,現在のPCにはできない。そこで私は以下のようなシステムを夢想している。さすがに今のPCに自己複製能力を求めることは不可能だが,少なくとも,故障したり,ウイルスに感染したりしたら,それを自動的にどこかのセンターに連絡するシステムの開発は可能だろう。もちろん,あるCPUが動かなくなったら,それ自身が通報することはできないから,CPUが常時相互監視している必要がある。

故障なり,なんなりの問題が生じたことがわかったら,利用者である我々の手をわずらわせることなく,新しいCPUが配送される。さらに,これらCPUがわれわれの研究室にある必要はないので,大学や研究所など,それぞれの研究単位でCPU格納室を用意し,各自の部屋からそれらにつなげばよい。このような集中システムであれば,故障したり,あるいは利用者がもっとCPU数を増加させたいときに,利用者が意識するしないにかかわらず,CPUが工場から届けられ,半自動的に交換あるいは追加される,ということは楽だろう。また多数のCPUが集中していることにより,それらをイントラネットでつなげてグリッドシステムとして使うことも容易だろう。

安易な解決策ではあるが,既存の技術を使うことができるので,これによってCPUの増殖を比較的簡単に実現することができると思うのだが。もちろん,遠い将来にはCPUの本当の意味での「自己複製能力」が期待される。ただし,現在の材料では無理だろう。人工の「CPU細胞」のようなものの開発が必要だ。たとえば,超高速パラレル計算を常時行なっていると言われている,哺乳類の小脳のような細胞群を自由に細胞培養することができれば,それらを使うことができる時代が来るかもしれない。

8. 遺伝情報について考える

国立遺伝学研究所 大量遺伝情報研究室 教授 西川 建

今や生物学はゲノムの時代を迎え,DNA,遺伝子,遺伝情報といった用語はマスコミなどでもさかんに使われるようになった。この中で遺伝情報という言葉に注目すると,「遺伝」はもちろん本来の生物学用語だが,「情報」という概念はかなり新しい。ワトソン&クリックの DNA 二重らせんの発見によって始まった分子生物学の登場以降のことである。しかし,分子生物学においても最初のうちは遺伝暗号(genetic code)という表現が好まれ,遺伝情報(genetic information)の方はかなり抵抗感があったようである。 DNA の複製に始まり,転写,翻訳過程の大筋が次々と解明されていったのは,第2次世界大戦が終ってまだ10年余りという時代で,戦時用語としての暗号,暗号化(encode),暗号解読(decode)といった言葉の方に,より馴じみ深かったからかも知れない。片や情報という言葉は,コンピュータの発展とともに社会に浸透するようになり,インターネットの普及とともに情報化社会に突入し,IT に代表されるようにインフォメーション(情報)はコンピュータの代名詞になってしまった。奇しくも,コンピュータも戦時技術として,最初の真空管式計算機が発明され(齋藤成也氏の稿を参照),戦後になって半導体式計算機が登場し,今日の IC チップ集積型コンピュータへと発展してきた。それとともに,情報処理,情報(データ)の伝達・転送,記憶媒体へのデータ格納などのコンピュータ用語が一般化し,「情報」は現代的な言葉として通用するようになった。このような時代の趨勢を背景にして,生物学においても「遺伝情報」という用語が容認され,定着するようになったと考えられる。

ここで1つ言えることは,上記のような現代的な意味での「情報」はたかだか20世紀後半に現われた比較的新しい概念だということである。もちろん日常語としての情報という言葉はそれ以前からあった。たとえば,英語のinformation は旅行者にはお馴染みの「案内」や「受付」として使われる。しかし,現代用語としての「情報」という概念はなかった。その点を確かめるために,ジョージ・オーウエルの小説「1984年」を調べてみたことがある。この小説は1948年に書かれおり,よく知られているように,当時はまだ「未来」であった1984年の様子を予想して描いた近未来小説である。 84年と48年の関係は一種のシャレだと思えばよいが,私にとって都合がよかったのは,この2つの年の関係が,20世紀前半(の最後)という時点から20世紀後半を予想した関係になっていた点である。この小説では,ビッグブラザーと呼ばれる独裁者に支配される近未来社会が描かれている。おもしろいことに,当時予見されたあらゆるハイテク監視装置を使って人民を統制する様子が書かれているにもかかわらず,案のじょう情報という言葉はまったく出てこない。したがって,20世紀前半には情報という概念はなかったと言えるのである。

ところで,コンピュータの情報と生物における情報を比較してみると,両者で大きく異なる点がある。コンピュータは大量の情報を処理し,記憶することができるが,入力情報(データ)を与え,出力情報を見て判断するのは,あくまでも我々人間である。そもそもコンピュータをつくったのも人間だから,コンピュータに基づく情報が「情報というもの」であり,情報の典型だと思ってしまえば,情報とはしょせん人間のつくるものであり,人間を離れて情報は成立しないことになる。世間では何となくそう思っている人が多いのではないだろうか。しかし,分子生物学は生命現象の基底部に,人間の手を離れて成立する情報形態が存在することを明らかにした。この点の重要性は,すでに20年余り前に渡辺慧によって次のように指摘されている。

情報という観念なしには生命を理解できないということを教えてくれたという意味では,分子遺伝学の功績は大したものです。 ところで,情報というのは何かといえば,これは物理化学的な概念ではありません。 基礎的な物理化学にはそんな概念はありません。 ですから,分子遺伝学は,むしろ,概念的にも,法則的にも,(生命現象の物理化学への)還元論の不可能を教えてくれるものと評価すべきであります。
(渡辺慧「生命と自由」岩波新書)

人間に先立って自然のうちに成立する情報が存在することを示した点で,遺伝情報の発見の意味は大きい。上の引用で言われているように,情報は物質やエネルギーに還元することができない。たとえば,情報はコピーされて,いくらでも自分と同じものを生みだすことができるが,物質やエネルギーにはそのような性質はない。これまでの自然科学では,物質とエネルギーは自然を構成する要素だとされてきたが,それに加えて情報も基本的な要素の1つだとせねばならないことになる。しかし,自然の中にあるといっても,情報はつねに生命と結びついており,生命現象と切り離しては存在できない,と言えそうである。その意味で,非生命世界を対象としてきた物理学が物質とエネルギーを自然界の基本要素と見なしたのは妥当であり,物理学が化学をその支配下におくのに成功したにもかかわらず,なぜ生物学を取り込むことには失敗したのか,という理由も理解できる。物理学が情報を自然界の基本要素の1つとして定式化できないかぎり,「生命の物理」(真の意味での生物物理学)は成立しないのである。

生命における情報は遺伝情報だけに限らない。外界からの刺激を受容体でキャッチし,細胞内のシグナル伝達因子(タンパク質)を経て,遺伝子の発現を制御するシグナル伝達系も情報処理の一例であるし,動物の内分泌系(ホルモン)や免疫系も情報伝達や処理に関わるシステムである。しかし,これらは遺伝子や遺伝情報から派生した二次的情報形態だと捉えることができる。その意味で,遺伝情報は基本情報形態だと呼ぶことにしたい。それでは,遺伝情報に匹敵するような基本情報形態は他にないだろうか。私は脳神経系の情報と人間の言語も,遺伝情報とは異なる基本情報形態だと見なしてよいと考える。たとえば,遺伝情報は生体高分子(核酸やタンパク質)を基盤とする情報だとすれば,脳神経情報は神経細胞(ニューロン)を基盤として,ニューロンの発する電気的インパルスをオン・オフ信号として用いるという点で,原理的に見ても遺伝情報とは異なる情報形態である。さらに,人間の言語は脳を基盤とし,音声を信号として用いるという点で,前二者とはまったく異なる原理に基づいている。言語は人間が創作したものではなく,生得的なもの(自然言語)とする見方はチョムスキーを引き合いに出すまでもなく,いまや常識であろう。その意味で,言語も人間に先立つ情報形態としてよい。人間は言葉を使うことによってあらゆる社会活動を行ない,文化を生み出してきた。その中には科学も含まれるし,さらにはコンピュータも含まれる。コンピュータによる情報処理がいくら華々しく見えても,あくまでも言語という基本情報形態から派生した二次的な情報形態にすぎないのである。

最初に述べたように,遺伝情報という概念は,歴史的にみるとコンピュータにおける情報との類似性から生物学に持ち込まれたと考えられる。もしもコンピュータの発明が前世紀の半ばではなく,もっとずっと遅れていたなら,分子生物学において遺伝情報という概念が生まれたかどうか,非常に疑わしい。言いかえると,歴史的偶然によって分子生物学は遺伝情報を「発見」したことになる。だが,歴史的由来はともかく,ひとたび情報という要素を生命現象の中に認める立場に立ってみると,それまでの物質代謝・エネルギー代謝からなる生命という見方に加えて,情報によって規定される生命という側面が浮び上がってくる。ゲノムとは生物個体のもつ遺伝情報の総体を指すが,ゲノムなくして細胞の活動はありえない。同様に,脳神経系がなければ動物は成り立たないし,言語なくして類人猿から人間にはなりえなかったはずである。このように,情報は生命体が生みだし,生命体に属するものに違いないが,逆に情報が生命体を規定し,成り立たせている関係にあることも忘れてはならない。

以上のように,情報という概念はまだ比較的新しく,十分練りあげられた概念とは思えない。たとえば,物理学の対象である物質・エネルギーと情報はどういう関係に立つのか。あるいは,人間の意識や精神,心とどういう関係にあるのか,といった問題である。このような問題は,コンピュータの情報をいくら調べても答えは出てこないだろう。基本情報形態である遺伝情報,脳神経情報,言語を相互に比較・検討することにより,情報の特性,物質・エネルギーや精神との関係性などが明らかになるのではないかと考える。
・・・といったところで,すでに予定の紙数をオーバーしてしまった。この考察の続きは別の機会にゆずることにしたい。

9. RNA genes as modulators of gene expression

National Institute of Genetics Gene Function Research Laboratory Assistant Professor Roberto Barrero

About Science: microRNA genes act as modulators of gene expression
Since the discovery of microRNA (miRNA) genes almost twelve years ago, their crucial role as post-transcriptional regulators in animal and plant species have been demonstrated in the last five years. miRNAs are transcribed from genomes as long primary-precursors (pri-miRNA) , which are processed down into 60-80 nucleotides (nt) precursors (pre-miRNAs) by the Drosha-Pasha processing complex. A single pri-miRNA may encode up to seven pre-miRNAs. The pre-miRNAs are exported to the cytoplasm via the Exportin 5 pathway and are recognize and cleave by Dicer into the mature miRNAs that may range from 21 to 24 nt in lenght. miRNAs guide the RISC (RNA Interference Silencing Complex) to their target genes and mediates either mRNA degradation or translation inhibition.

Currently, there are 1,225 and 392 miRNAs known for animal and plant species, respectively (Rfam Release 6.0). Plant miRNAs usually have perfect complementarities to their target genes binding their coding region and mediating mRNA degradation via the RNA Interference (RNAi) pathway. In contrast, animal miRNAs have imperfect complementarities to their target genes, which prevent a straightforward identification of these targets by in silico approaches. Animal miRNAs will generally bind the 3' untranslated regions (3'UTRs) of their targets that results in inhibition of the protein translation process. The biological functions of miRNAs remain to be uncovered, only for a handful number of miRNAs forward genetics have elucidated their function.

The main interest of our lab is the identification of novel functional RNA genes using comparative genomics. We are focus in the identification of novel microRNA genes in mammalian species. To understand the biology of microRNAs is required to comprehend their genomic context, and evolutionary path. We generated computational tools to identify conserved microRNA genes in human and mouse genomes as well as to investigate the evolution of pri-miRNAs. Linage specific miRNAs may play important roles in defining differences in the gene expression regulation network for each species.

We also developed in silico tools and implemented reporter assay systems to screen and validate highly reliable microRNA-target interactions. The predicted microRNA targets are involved in a wide variety of biological processes implying a crucial role of microRNAs in a number of biological processes such as development, apoptosis, signal transduction and others.

About Life in Mishima: NIG brings many opportunities to do sports at all levels
It has been almost 14 months since I moved to Mishima from Tokyo. At first, there is an obvious "change feeling" from a big metropolis to a more peaceful town. I need no more to take trains in the famous rush hours or run to catch the last train. Some of the first things you hear about Mishima is that the water and air are cleaner, and sure they are! The thing I like most of not having a driving license is that it allowed me to reduce my weight for about 10 kg in my need to ride my bicycle every morning to climb the NIG hill. This was a very effective "diet" strategy given that in one day I may need to repeat the process 2 or 3 times. Now that we can enjoy our NIG cafeteria at noon, the effectiveness of the process has decreased by an approximation of 33%! According to my new gain of weight!! NIG offers everyone the possibility to do various sports such as play soccer, tennis or badminton (as far as I am aware of) and it is very fun to do sports, even the next two days I may not be able to walk straight. The very good thing of doing sports with people at NIG is that everyone can join the group, regardless of their level. Everyone is welcome from first-time beginners to Olympic champions, and the best part of all is that more experienced people will share their knowledge with the rookies. So don't miss the chance to put yourself in shape once in a while!

10. 鴎外と情報

国立遺伝学研究所 遺伝子機能研究室 教授 舘野 義男

国語試験の解答のようであるが,我が国の近代文学を代表する作家として漱石と鴎外と答えても合格点は取れるだろう。私は漱石の本は比較的よく読んだが,鴎外のほうは「阿部一族」や「高瀬舟」くらいしか覚えていない。「舞姫」は追いていけず途中で投げ出し,「渋江抽斎」は難しすぎて,やはり放り出してしまった。二十歳前後の頃だったか。以来,何となく鴎外は苦手であった。いや嫌いであったというべきか。それが何故か分からないまま月日は経ってしまった。

ところが,先日,上山明博の「発明立国ニッポンの肖像」(文春新書)を読んで面白い事実に出会った。ビタミンを最初に見つけた日本人の章に,鴎外が登場したのである。そこには,以下のような,鈴木梅太郎と森林太郎の確執が記されていた。

この頃我が国は,日清・日露という未曾有の戦争に膨大なエネルギーを費やしていた。ところがどういう訳か,陸軍の兵士には敵の弾よりも脚気で亡くなる者が多かった。この深刻な問題は陸軍軍医総監であった森林太郎を悩ませたが,結局彼らをこの病気から救うことはできなかった。いや,救う方法はあったのである。海軍の医務局長であった高木兼寛が,英国留学の経験を生かして提案した経験則「麦飯や玄米を食べさせること」だった。

森はドイツ留学で医学を修めた人で,当時世界的な細菌学者であったロバート・コッホの影響を強く受けたといわれる。従って,彼は,病気は細菌が原因で起こるという考えにこだわり過ぎたのかもしれない。脚気もまた細菌が原因と強く信じ,高木の経験則を無視した。事実,海軍は麦飯を奨励したので,ほとんどの海軍兵は脚気に患らなかったが,陸軍は無論採用しなかった。日清・日露両戦争での戦死者は4万9千人だったのに対し脚気患者は25万人(内死者3万人)という記録がある。全ての脚気患者は,権威を被った固陋の犠牲者であった。森の責任は重大であったが,やはり権威が隠蔽したといえよう。

後に,やはりドイツ留学を果した梅太郎は,米糠からオリザリン(今ではビタミンB1と呼ばれる)を抽出し脚気の特効薬を開発した。しかし,当時臨時脚気病調査会の初代会長であった森は,細菌説にこだわりこれを黙殺した。当時の医学会も森に倣った。かくして,梅太郎は世界初のビタミン発見者の名誉に浴することはなかった。ただ,梅太郎は1911年にこの発見をドイツの学術誌に発表したが,不幸にして彼の小論文は注目されることはなかった。そのたった4ヶ月後,ポーランドのカシミール・フンクが同じような発見を英国の生化学誌に発表し,発見した物質をビタミンと名付けた。今でも世界的にはビタミンの発見者は梅太郎ではなくフンクとされている。

森林太郎は,自分は作家でなく医者だと信じていたようである。しかし,彼の意に反して,世間には林太郎より鴎外という名のほうがよく知られるようになった。いづれにしても,彼の著業は,精魂込めて執筆を続けた漱石の域に到達しなかったのかも知れない(そう言えば,漱石も,高木と同じように,英国に留学したのだった)。

鴎外はしかし,若い頃の下宿先だった西周の影響を受けたせいか,語学に極めて堪能であった。西は「科学」,「技術」,「学術」,「芸術」,「哲学」などという訳語を次々に生み出した人としても知られる。そして,鴎外は,彼に倣ってか,情勢の報告という意味から「情報」という言葉を考え出した。 Information の訳語として「情報」が充てられたのは後のことだろう。

11. その正体

国立遺伝学研究所 集団遺伝研究部門 助手 隅山 健太

ある日,当時二歳だった娘が公園で,オシロイバナの種といっしょに,同じくらいの大きさの小さな赤い玉を拾ってきた。娘はこれをいたく気に入ったらしく,かわいい,かわいい,といって一日手放さず,ついに夜眠る時に布団の中にまで連れていくほどであった。娘にとっては,これは自分を楽しませるために世界のどこからかやってきたお友達であったのだろう。

実際のところ,この赤に着色された直径数ミリの樹脂製の球体はBB弾と呼ばれるモデルガンの弾である。Wikipedia によれば,「材質はプラスチック,または生分解性プラスチックで,直径は通常 6mm だが,マルシン工業独自の規格として 8mm も存在する。主にエアソフトガンで使用されるが,近年は銀玉鉄砲に使用されるケースも多い。1980年代にマルゼンによって実用化された。これによって命中精度は向上し,またその形状からマグヌス効果を利用した有効射程を延ばす機構『ホップアップシステム』が考案される等,エアソフトガンの性能向上において果たした役割は非常に大きい。サバイバルゲームを行なったであろう公園などによく落ちている。」とある。恐らくある種の人にとっては,6ミリの球体という情報と,公園に落ちていたという事実だけで,こうした情報をすべて瞬に思い浮かべることはたやすいことだろう。受け手が既に持っている知識を前提とすれば,ごくわずかな事実の組み合わせで多くの情報を想起させることができる。だが,受け手がそのような情報を持たない,あるいは失ってしまった場合にはどうだろうか。インターネットなどで検索してほぼ同じ情報を得ることはできるかも知れないが,それには一定の時間と労力を要する。もし検索で情報が見つからなければ,6ミリ,球体,公園という事実が残るだけである。その場合情報の読み手は6ミリ,球体,公園という情報から,モデルガンとは無縁な全く新しい発想と展開を行うかも知れない。ある時点で情報の集積が行われた後,受け手側が共有する知識がシフトしていくとき,客観的には同一の情報が大きく違う意味として捉えられることが起きうるだろうし,それはむしろ新しい科学を産み出す種として歓迎すべきなのかも知れない。ただし,その代償として,当初「自明」であるがために記述されなかった情報に包含される関係性は消滅してしまう。1000年後に,昔の公園には6ミリ程度の赤い玉が大量に散らばっていたという事実を考えるとき,それが儀式に用いるために作られた赤米の代用品であった,などという推論が出てもおかしくはない。事実の情報が集積され提供されるとき,それが孕むメディアとしての性質は重要で,どのように事実の情報が選ばれ提示されるのかが,その情報を新たに出発点とする受け手側に与えていく影響は小さくないだろう。

今私の手許には,研究中に拾い上げた「AGATAAATTAC」という配列がある。娘の赤い小玉の場合とは違い,私に本当のことを教えてくれる情報源はない。謎が残ったままなのは残念だが,私はこの配列をとりあえず「かわいい」と思うことにする。

12. 生命における個性と多様性

国立遺伝学研究所 遺伝情報分析研究室 助教授 池尾 一穂

現在,ご存知のように,様々な形で生命科学におけるデータベースの整備が進んでいます。もちろん我々の国際塩基配列データベースに関する活動もその中の一端です。そして,種々の生物の完全長ゲノム配列データが利用可能になるとともに,ゲノム配列を中心に生命現象を改めて記述していこうとする動きが活発になってきています。
一方,様々な実験手法や顕微鏡技術の進歩は,以前では想像もできなかった生物の姿を我々に見せてくれるようになりました。そして,これらの多様な情報を統合化していくことが求められています。言い換えれば,現在の生命科学は生命現象を共通の言葉と表現で再記述しようとしているといえるのではないでしょうか。これは,自然科学が一定の方法により一般的な法則を導き出すことで自然の成り立ちやあり方を理解し,説明・記述しようとするならば自然の成り行きといえるでしょう。近年活発な比較ゲノムに代表される種間比較の試みは,多様な生物における一定の法則を見つけようという試みです。これは見方を変えれば,博物学の時代から生物の研究の主要な方法でありました。ゲノムに代表される大規模スクリーニングによって得られた成果を統合し,生命現象に共通する法則を抽出しようとするアプローチは,その意味においてこの試みは古くて新しいものであると言えるでしょう。
それでは,生物に一定の法則を見出すことはできるのでしょうか。もちろん,我々人間は,生命現象の全体像を理解し生命の法則を見出すことを目指しているのは間違いありません。けれども,現時点における我々の知識は生命全体像を記述し一定法則を導き出すためにはまだまだ不十分です。そして,科学の進歩に伴い生命現象に関わる情報は収束に向かうというよりはますます増加の一途をたどっています。その意味合いにおいても生物種を比較していくことは非常に重要であるといえます。

さて,比較とはいったい何でしょうか。比較をすることによって,様々な生物に共通する現象を知ることができ,それを説明しうる法則が見つかるかもしれません。また,比較するということは生物の進化を理解することでもあります。しかしながら,それで生命をすべて理解できたことになるのでしょうか。
今日,もうひとつ注目されているキーワードが多様性です。種の多様性はもちろんのこと人間の多様性,細胞の多様性など,生物は様々なレベルにおいて多様性を持つことにより成り立っています。この多様性を理解するためには,共通することを見つけ理解するだけでは不十分です。進化学の立場で行けば,これまでは生命の進化を理解するために共通祖先を見つける目的で生物における共通項が注目されてきました。
けれども,比較により共通部分を知るということは,実は,それぞれに特異的な点も同時に知ることになります。それは,個体のレベルで行けば個性の理解に繋がるでしょうし種のレベルで言えば種を種として成立させている理由を理解することに繋がるはずです。また,同じであるもしくは似ているということが直ちに共通の法則に繋がるのでしょうか。進化において収斂進化というものが知られています。これは,ダーウィンの時代から知られており,ダーウィン自身もその著書,“種の進化”の中で,進化を考える上でのその重要性に触れています。収斂進化の可能性は分子(蛋白質)のレベルから固体のレベルまで様々に指摘されています。様々な生物に見られる擬態も広い意味でその一種であるといえるでしょう。一例として眼の進化が挙げられます。もっとも有名なものは,脊椎動物におけるカメラ眼と軟体動物に見られるカメラ眼です。両者の形態はよく似ていますが,その焦点調節の仕組みや発生の過程は異なる進化を示唆します。もちろん,眼そのものは基本的な動物の感覚器官であり,光受容を目的とした感覚器という意味では広く種をこえて存在しますし,様々な分子データは両方のカメラ眼も共通祖先から進化してきたものであることを示しています。しかし,共通祖先から両者への進化の道筋はまだまだ不明な点ばかりです。さらに,渦べん毛虫のある種は単細胞生物にもかかわらずレンズを有する光受容器官を備えています。収斂進化の候補は,眼以外にもたくさん知られています。
これらの起源と進化を理解するためには,共通項を探るだけではだめであり,いったい何が異なっているかを理解することが大事になります。また,現在は様々な実験技術と分子レベルの知識の蓄積により,関係する遺伝子やその発生の仕組みを詳しく調べることが可能になってきました。すなわち,生物の多様性をそのメカニズムから議論することが可能になり,なぜ,どのようにして生物の多様性が生じ,またどのように生物の共通性が存在しているかを議論しうるようになったのです。
今後,このような特異性を理解することにより,いっそう生物の共通項が明らかになってくることが期待されます。このようなアプローチは生命そのものを理解するために欠かすことのできない知識を我々に与えてくれるでしょう。

13. グーグる

国立遺伝学研究所 データベース運用開発研究室 教授 菅原 秀明

「グーグる」は,Google を使ってインターネットを検索することを意味する五段活用動詞です。例えば,静岡茶を楽しみながら遺伝研の桜を愛でているときに,不粋にも「blast の URL を教えて下さい?」と聞かれた時には,冷たく「グーグってみれば」と応えましょう。また,「グーグる」人々を「グーグらー」と言います。

日本の Googleサイト で blast を「グーグって」みました。 Google が公称している80億余りの URL のサイトから該当した4,700万ページのうち上位10件が,瞬時に,ブラウザーに表示されました。第1位は,2001年トニー賞と2002年エミー賞を獲得したショー blast の日本公演のサイトでしたが,第2位に NCBI のサイト,第3位に DDBJ のサイトが表示され,10位以内に,WU(ワシントン大学)のサイトと GenomeNet のサイトが入っていました。各サイトのタイトルに加えて対象サイトから数行のテキストが抜き出されて表示されたので,日本公演のチケット購入に寄り道することなく,相同性検索の blast にたどり着くことができました。もう1件, DDBJ が誇る高速エントリー抽出システム の名称 getentry で「グーグって」みました。第1位にDDBJ の getentry が表示され,一安心しました。 Getentry は日常用語でないので期待通りの結果かと思いましたが,第2位以下に java や visual studio などで使われるメソッド名が並んでいましたので,この検索結果には満足して良いでしょう。

このように,単純な操作で,網羅的に,高速に,満足度の高い結果を得られるので「グーグらー」が増殖してきたのでしょう。そのページをリンクしているサイトの数に重みを加えた指標の PageRank の順に該当ページが並べ替えられて表示されるので,満足度が高くなると言われています。一方で,「グーグらー」にとっても気になることもあります:

  • 膨大な該当ページ(blast の場合4,700万件)のトップ10だけ見ていればよいのだろうか
  • 該当ページの分布はどうなっているのだろうか
  • 機能していないページに行き当ってしまうこともあるが

Google が決して全能の検索神ではないとすれば,いろいろな工夫が考えられます。まず,複数の検索エンジンからの結果を組合わせて表示することが考えられます。また,検索結果の取り扱いに工夫を凝らすことも考えられます。例えば,ビビジモ の工夫です。ビビジを使ってblastを検索すると,約2,000万件のうちの190件が該当するというメッセージが表示されます。その下に Web ブラウザーの左側のフレームに Search や Apple,Advanced Computation といったカテゴリーが該当件数と共にツリー構造で表示されます。また,カテゴリー名をクリックすると該当ページの具体リストが右側のフレームに表示されます。ビビジオのカテゴリー作りの仕組みはなかなか魅力的です。予め設定したカテゴリーではなく,該当ページの一部のテキストを言語解析および統計解析してカテゴリーを動的に生成する点です。ビビジモのほかに,グロッカ も面白い検索システムです。検索結果の概要がビビジモと同様に階層的カテゴリーのリストで示されますが,グロッカの興味深い点は,階層的なカテゴリーがリスト型式だけでなく,ベン図の形式で,各カテゴリーが円で描かれるグラフィックで表示される点です。Blast で検索した場合,blast の円の中にまず最上位のカテゴリーが表示され,その中の Blast Search の円をクリックすると,Blast Search 円が最前面に拡大表示され,その中に,下位のカテゴリー Blast server,Similarity Search, Local Alignment, NCBI Blast ならびに Protein Database に相当する円が描かれます。このグラフィックの色合いもなかなか良いです。

さて,「グーグらー」はなぜここまで増え続けてきたのでしょうか。 Google の大規模なコンピュータのネットワークやPageRank の技術によって実現された高速性や検索結果の精度にあることは間違いありません。しかし,それだけでしょうか。玉石混交はあっても膨大な多種多様な情報資源がオンラインで利用可能になっていたからこそ「グーグる」意味が出てきた,と考えます。

国際塩基配列データベース には5,000万件500億塩基対以上の多様な塩基配列データとその生物学的意味が蓄積されています。このデータベースの網羅的かつ高速な検索は blast で実現されていますが,まだまだビビジオやグロックに類した工夫をしていく余地があります。また,キーワード検索については,検索速度についても,検索結果の精度についてもデータの品質が均一でないことを受け入れた上で,大幅に向上させたいものです。例えば,データベースの内容と利用例を分析した結果に基づいて,自動分類・圧縮したエントリーを複数の観点から提供していきたいものです。 DDBJ では現在キーワード検索システムとして SRS に加えて ARSA を試験公開していますが,いずれは「アルサん」(ARSA で検索する人々)が増殖し,「グーグった」結果の最上位に ARSA が来ることでしょう。

(注)ここに引用した Google, Vivisimo および Grokker の検索結果は,2006年1月28日時点のものです。

14. ハプロタイプブロックについて一言

国立遺伝学研究所 大遺伝子発現解析研究室 助手 小笠原 理

ゲノムデータの応用として期待されているもののひとつに疾患関連遺伝子の探索がある。多因子疾患については,疾患関連遺伝子の疾患に対する寄与が小さいため連鎖解析では疾患関連遺伝子を検出するのは現実的には困難であるのに対し,連鎖不平衡解析をつかえば統計的に検出できる可能性が高いという理論(Science 273:1516) に後押しされて,連鎖不平衡解析が盛んに行われるようになった。

その後の大きな進展の1つは,ハプロタイプブロックの発見である。大規模な実験の結果,SNPs をマーカーとして用いたとき連鎖不平衡を呈する染色体上の領域の範囲は数kb〜数百kb に及ぶこと,その LD を呈する範囲は,不連続なセグメント構造(ハプロタイプブロック)として見えることがわかってきた。大雑把に言うと,ブロック内の SNPs は互いに連鎖不平衡を呈するが,異なるブロックに乗っている SNPs の間では連鎖不平衡が無く,染色体はこのようなブロックで敷き詰められていると考えてよい。この不連続なセグメント構造は,人種を超えて共通であるという。

この観測結果から,このハプロタイプの不連続なセグメント構造の原因は,染色体上の特定の場所で組み換えが非常に起こりやすいためである,という説(組み換えホットスポット説)が提唱された。簡単のため組み換えがホットスポットでしか起こらないとすると,ホットスポットで区切られた染色体領域は,ひとつの塊として子孫に受け継がれる。したがって(若干乱暴だが)理屈の上では,ホットスポット間の領域のうえに1つずつ SNP マーカーがあれば,この領域内のほかの SNPs あるいはこの領域内にある疾患に関連した多型とも連鎖不平衡を示すはずである。解析に用いるマーカーの数を減らすことができるということは,マーカーを準備する上での経済的効率だけでなく,マルチプルテストの影響を低く抑えられるという点で画期的なことであった。HLA 領域に関する研究によると,sperm analysis(一種の家系データ)から求められた組み換えホットスポットと集団データから得られたセグメントの区切りとが見事に一致している (Science 304:581)。これを根拠に HapMap の最近の論文でも組み換えホットスポット説を推している (Nature 437:1299)。

ところで,上記の観測事実から,ハプロタイプがブロック状の構造を呈する原因は,染色体上に多数の組み換えホットスポットが存在し,多くの場合そこでしか組み換えが起こらないからである,という考え方を認めてしまってもよいものであろうか?この説は表面的には,実験事実に立脚した「事実」であるかのようにみえるが,実際には短い染色体領域で見られた現象をゲノム全体に「外挿」した,ひとつの「仮説」に過ぎないことがわかる。

集団遺伝学的な常識から言えば,ハプロタイプブロックが見える原因は coalescent process で説明できるのではないかと疑ってみるのは自然なことである。これは,組み換えが染色体上のどこでも同じ確率で起こると仮定しても,ハプロタイプブロックは現れるはずである,ということである。数式を使わずひらたくいうと,世界中の様々な人種からサンプルを取ったとしても,数十個体程度の個体の共通祖先までの世代数は,直観的な想像に比べてはるかに小さいと見積もられる。つまり数十個体程度を見たときに,それらの間で起こった組み換えの回数はもともとあまり大きくない。したがって,組み換えに関してセグメント構造が見えてくる,という考え方である(Am. J. Hum. Genet. 71:1227)。この場合,サンプルの選び方がハプロタイプブロックの構造に影響してくる可能性も考えなければならなくなってくるかもしれない。

どちらの「仮説」が現実に近いか,本稿で決め付けるつもりはない。ここではこの問題はまだ議論の余地があることを指摘するにとどめたい。 HapMap が組み換え HotSpot の論拠としている Science 304:581 の論文では集団データから組み換え価を逆算した結果,染色体領域の部分ごとに組み換え価が大きく異なるという解析結果を得ている。しかし,何十人のデータを取ろうとも,実験データは所詮一回の coalescent process の結果に過ぎないのだが,そのたった一回の試行から組み換え価を逆算して,組み換え価が期待(つまり組み換え価一定)よりも大きく変動しているということを証明する解析は,(組み換え価一定であっても,得られる観測結果は大きな変動を伴っているはずなので)たくさんの前提を含んでおり,非常に複雑である。したがって,それぞれの前提が解析結果にどのような影響を及ぼしたか,さらに慎重に検討する必要があると思われる。最近の解析の論文にはよくあることだが,よく論文を読んだ程度で検討できるような話ではなく,解析を再現してみる必要があり,それはいつも非常に困難である。解析に用いたソフトウェアを公開してくれればすむことなのだが,何とかならないものだろうか。

15. DDBJ 20周年を迎えて

国立遺伝学研究所 生命情報・DDBJ研究センター長 教授 五條堀 孝

DDBJ の研究事業は,1980年の初頭から実際的にはその準備的な活動を行っておりますが,1986年に国立遺伝学研究所において遺伝情報研究センター(現生命情報・DDBJ 研究センター)が設立されたことによって、公式にその活動を開始致しました。ご存知のように,DDBJ は米国の NCBI(GenBank) と欧州のEBI(EMBL) と共同して国際 DNA データベース構築を行って参りましたが,今年でちょうど20年間続いたことになります。 本年の5月15日から19日まで米国の NIHで開かれました DNA データバンクの国際実務者会議や国際諮問委員会においても,この長年における国際共同研究事業は米国の研究史上類をみない成功した国際共同研究事業のモデルとして高く評価されていることが報告されました。

これはひとえに,データ登録者の皆様そして利用者の皆様方の強いご支援の賜物と確信しております。今後は,アジアの連携を強くすると共に,政府レベルで計画されている統合データベースの動きにも積極的に協調して,ライフサイエンスにおける重要な責務を果たして参りたいと思います。各分野と各方面のさらなるご支援を切にお願い申し上げる次第です。

16. 夢見る頃を過ぎても

国立遺伝学研究所 大量遺伝情報研究室 助手 福地 佐斗志

「未来が現在の行動を規定するという行為は, 他の生物にできない人間的な行為である」, 高校の先生に言われたことがある。 彼は「10年後の自分を想像しながら生きなさい」とも言っていた。

DDBJ は今年で20周年だそうだ。 DDBJ のホームページから各リリースの統計情報を知ることができる。1987年7月の DDBJ リリース1のエントリ数は 66(!)で, 総塩基数は 108,970 塩基だった。 大腸菌ゲノムが 4639,675 塩基だから, その2割程度の配列しか登録さていなかったことになる。 インフルエンザ菌のゲノム配列が全ゲノムの初の解読例として決定されたのは 1995年だが, 約10年間でゲノム配列が解読された種は 300に迫っている。 1996年に発売された Sun 社のワークステーション Sun Ultra 4000は、167MHz UltraSPARC、256MB メモリ, 4.2GHD のスペックでなんとお値段 13,720,000円也, である。 こんなに技術進歩の速い時代に生きていて,「10年後を想像しながら生きろ」なんて, 便利になったのだか不便になったのか首を傾げたくなることもある。

一方で人類が思ったほど進歩しなかったと思える部分もある。 鉄腕アトムの誕生日は 2003年の 4月7日で,マッハ5(!)で飛ぶし, 60カ国語もはなせる。 もちろん10万馬力だ(若い人はわからないかな...)。 ドラえもんでは, 2002年に小学生が作れる「人工衛星キット」が発売されているし, 同年には短時間の睡眠でも十分な睡眠を得られる薬が発売されている(欲しい!)。 2008年には人類はタイムマシンまで手にするのだ。 なんだ, 漫画の話じゃないか。 そう,空想のお話です。 同じお話の世界でも,映画「2001年宇宙の旅」で描かれた世界はもう少し現実的に見える。 製作に携わった SF 作家,アーサー C クラークは, 自らの科学者の経歴から徹底した科学考証を行ったようだ。 確かに, この映画に出てくる宇宙ステーションは, 某国がイラクに打ち込んだ爆弾を少し節約すれば実現できそうにも見える。 その設定は, タケコプターや10万馬力のロボットよりも誠に科学的に見える。

一方で, こんな話を耳にしたこともある。 「日本人技術者が二足歩行ロボットにこだわるのは幼い頃, 鉄腕アトムを見たからだ」というものだ。 私が子供の頃にテレビで見た二足歩行ロボットは歩くこともままならず, よく前のめりに転んでいたものだが,最近では踊ったり,ピアノを弾いたり...確かにこの分野は世界でも日本がリードしているみたいだ。

科学では論理的な思考が重要であると言われることが多い。 確かに科学に携わる人間は, 日々論理を要求される。 誰もが納得する研究にするためには論理が必要だし,論文査読者のコメントには論理で対抗しなければ論文は掲載されないだろう。 しかし同時に, 論理的ではない直感や夢のような空想も科学技術発展に重要であるにちがいない。 現在のテクノロジーの進んだ世界は, 50年, 100年前の人々の「できたらいいな」だったはずだ。 1+1=2 は計算機の得意な分野だが, 論理の飛躍や空想はまだまだ計算機にはできない,まことに「人間的な行為」といえる。 真夏の寝苦しい夜には, ビールでも飲みながらそんな「人間らしい行為」に思いを馳せるのもよいかもしれない。

17. 「DDBJ は誰のモノか?」

DDBJ チーフアノテータ 真島 淳

本題に入る前に簡単な自己紹介が必要であろう。 著者は足掛け8年,DDBJ でアノテータをしている。 肩書きからは職務内容がわかりにくいが,主な仕事は「DDBJ に登録されてくるデータ,塩基配列とその付随情報をデータベースに読み込むための整理整頓」である。 仕事の細かい中身の説明は,別の機会に譲るとしてアノテータは,ともかくも特殊な専門技術者である。 職名アノテータの上に「チーフ」と付くので,その集団のリーダー格である。 が,多くの小集団において「○○部長」「主任」「チーフ」とは雑用係の別名である。それでも,データベース仕様,記載規則に関して,一応それなりに発言権を持っているはず,多分,おそらく。さて本題に入ろう。 DDBJ は公共の国際塩基配列データベースである。 これが,「誰のモノか?」と問われれば「公共」と冠する以上,皆の共有物と考えるのが妥当であろう。で,終わりにしても良いのだが,もらった枠を埋める都合上,別の側面も考えてみよう。
最近,評判の悪い金融系「会社は株主のモノ」的に議論すれば,国の予算で運営されているので,日本が国家として所有するモノである,という言い方も可能。これまた,評判が悪かった某監督交代「人事異動」騒動のように「社主・取締役のモノ」論なら,運営に関与する遺伝研の教員がこれにあたる。これらに対立する考え方として「働く社員のモノ」という視点から,データベースに携わる私自身を含めた作業者,システム管理をしてくれている技術者,広報担当者,事務担当者のモノとも言える。
さらに某プロスポーツチーム vs 某ファンド関連の騒動から連想されるように,チームを愛するファンの視点から「ファンのモノ」的にも考えることが出来るだろう。 ファンとは,一般化すれば,お客様,神様?いや,顧客。DDBJ は競技団体でも利潤追求団体でもない。 ファンも(多分)いないが,準えるべきは愛用者であろうか。つまり相当するのは,登録者と利用者である。
賢明な読者諸氏も先刻ご承知とは思うが,特に直接編集などに関わる立場からは「登録者と利用者,加えて,公共性」が「DDBJ,誰のモノ」論への模範解答である。しかし問題は正にココにある。データベースを運営する上で,ちょくちょく運用方針を決める必要が生じる。 このとき悩ましい事態は,利用者と登録者の立場を考えると,双方の利益が矛盾する(ようにみえる)場合である。単純な例を挙げよう。利用者から,時折,データが間違っている,とご指摘をいただく。見れば,なるほど,その利用者のご指摘は学術的に正当であるように思える。 しかし,これを直すとなれば,その是非を登録者に問うことが必要なケースもある。 そこに専門的な争点がある場合,利用者と登録者では解釈が異なる状況があり得ることは,ご理解いただけると思う。
「誰のモノ」論を,もう一度,別の視点から捉え直そう。 DDBJ と個々のデータの関係は学術雑誌と掲載論文に似た位置付けである。 つまり個々の配列データは登録者が DDBJ を通じ公表した成果である。 最初の問題を「DDBJに登録された個別データは誰のモノか?」と読みかえた場合,答えは「登録者」。
近年のデータ捏造疑惑に関する批判では,peer-review 論文における,referee,editorのあり方に関する言及があった。しかし, 一般に,個々に論文の内容に関して,通常の学術的批判をするならば,その著者に対して,であろう。 類似の批判を DDBJ の登録データに 対して行うとき,データベース管理者に矛先が向かうことが多い気がする。 そこに登録者の記載があるにもかかわらず,である。 何故であろうか?
データベース側の広報が足りない,そもそもコンテンツが読み難い,こんなことを言い出すこと自体が責任転嫁だ,という厳しい批判の数々も事実であろう。 アチコチでご指摘を受けるし,私も意識していない訳ではない。しかも塩基配列データベースは学術雑誌の論文投稿と違い,その登録先に関して寡占,実質は独占に近い。だから責任も重い。
ただ,その割りには実働の作業者は少ないし,予算も少ないし,上司もアノテータ仲間もチーフに注文が多い...何の話だっけ?チーフアノテータは上司と仲間の板ばさみにも悩んでいる, という話...ではない,それも事実ではあるが。
本筋に戻ろう。 DDBJ は広く一般から登録を受け付け公表するという,実は非常に特異な性質を持つ,データベースである。 しかし,何となく他のデータベースと同様!?に検索が可能になっており,記載が揃っている(...か,のように見える)。 そのため,類似の構造を持つ特定個人,または,団体が明確な意思と選択を持って構築したデータベースと同列に扱われてしまう,という宿命のようなものがあるのではないか?
世界中の研究者から塩基配列の登録を恒常的に受け付けることにより,抱える配列データは著しく肥大した。この成長量は当初の企画者が想定した状態を上回るものだっただろう。データ増大はデータベースにとって最大のメリットであるが,同時に種々の困難を生じてきた。最大の問題はデータベースの成長に管理者が追いついていないことである。
DDBJが業務を開始した当時のことは,私も物語としてしか,知らない。 約20年前,当時は塩基配列の決定自体が論文になる時代であり,登録も検索の要求も −現在とは比較にならないほど − 少なかったらしい。 その頃は,おそらく手綱を握ることは比較的容易だっただろう。
しかし,登録者と利用者からの要求は,時代とともに増加し変遷し厳しくなった。 塩基配列をめぐる周辺の状況も多様化した。 例えば,当時は EST を想定していなかったはずだ。 このような矛盾を解消する策を講じるのは,我々の仕事だ。 しかし大袈裟に聞こえるかもしれないが,今,DDBJ が機能していること自体が奇跡と思えるような逸話が内輪には少なからずある。
「公共のモノ」とは,ともすれば管理者の手も届かない,誰のモノでもない,ということにも近しい。
最後にお願いをして終わろう。 公共物であれば使用権には義務を伴うのは自然なこと。 DDBJ に登録してくださる研究者の皆様へは論文を投稿する際に準じた責任感を,DDBJ を参照利用される皆様へは論文を読むときのような細心さを,どうか意識していただきたい。 それこそが,DDBJが皆様のモノであり続けるために不可欠,つまりは利用権を守るための「不断の努力(憲法第12条風)」ではないだろうか。

18. 「伝達は終わらない」

DDBJ アノテータ 大城戸利久

DDBJ でアノテータをしております小生が今回のコラムを担当いたします。ご承知のとおり,DDBJ は国際塩基配列データベース(INSD; 欧州の EMBL,および米国の GenBank)の一員として活動しており,この国際塩基配列データベース共同体(INSDC)の活動が開始されてから,今年で20年の歳月が流れました。アノテータの業務は基本的に登録者から送られてくる塩基配列データを INSDC によって規定されたルールに基づいて査定し,アクセッション番号を通知することになります。その他にもプロジェクトへの協力や学会への参加など,色々とありますが,ここでは割愛します。

さて,先日,東京で開催された“ ゲノムひろば2006 ”に出典者側として参加し,DDBJ の活動とサービスおよび,微生物の多様性と遺伝子・ゲノムに関する内容を紹介する機会を得ました。“ゲノムひろば“は高度で専門的なゲノム研究領域の成果を,普段,専門分野に接することがない方々も含めて多数の皆さんに紹介し,触れていただく機会となります。”ゲノムひろば“の会場には,学術研究の世界とは距離があるもののこの分野に興味を持っていただいている方,大学生,さらには高校生など,多数の参加者が訪れていました。平素,DDBJの業務で私たちアノテータが接する登録者や利用者は主に生物学に関連した研究を職業にしている方や学生の方々が多く,生物学(特に分子生物学)への理解が高い方々と接する機会が多いことから,”ゲノムひろば”で多数,お見受けした一般の方々と接する機会は限定的になります。

展示ポスターでは,DDBJ のサービスの他に,色々な微生物の形態や特異な働きの紹介,細胞内の配置のイメージおよび環状DNAの写真の掲載し,さらに塩基配列の並びの表示および,ゲノム内で遺伝子としてコードされている領域とそうでない領域との存在などを話しました。“ゲノムひろば”で何人かの方々とお話をさせていただきましたが,その中で,気になった点として,「DNA,遺伝子,ゲノムの関係がわかりにくい」というものでした。ある高校の生物の先生曰く,「大学の入学試験に出る事柄でもあるので,生徒に教えなくてはいけないが,教えるのに苦労されている」とのことでした。“ゲノムひろば”に参加して,教科書的な知識と実状との間に乖離が大きいことを感じました。少し話しは変わりますが,以前,知人から聞いた話なのですが,大学のオープンキャンパスなどで,来訪者の方々に「DNA を見せます」といったデモをしたときのことです。DNA 溶液が入っているチューブの中にエタノールを加えて,沈殿してきた白い糸状の DNA(恐らくゲノム DNA と思われますが)を見せた時に,それを見た参加者から“DNA って,二重らせんのはしごの形をしていないのですね“,と言われたそうで,苦笑したとのことでした。卒論や学位のテーマで研究を行っている方々でも始めて,ゲノム DNA を抽出した時に同様な経験されているかもしれません。

大学や大学院などでの教育・研究活動では,科学的検証の蓄積や論文を含めた資料の調査,さらに思考を行う作業が繰り返されており,いわば「知識の生産」が絶えず行われています。この生産された知識は多くの人々に共有されるとともに,次世代へ伝達されていくことが必要であると考えます。

INSDC が扱う塩基配列は生物が生存するための遺伝情報を保持する役割を持たされており,有性生殖であれ,分裂や出芽といったような無性生殖であれ,遺伝情報の担い手である DNA(一部は RNA)が親から子孫に引き継がれています。さらにこの遺伝情報は多細胞生物であれば,全ての細胞に分配されており,共有されています。塩基配列は“A(アデニン)”,“C(シトシン)”,“G(グアニン)”,“T(チミン)”が基本となって表現されていますが,一見するとこれは単なる文字列でしかありません。しかも塩基配列はウイルス,原核生物から高等真核生物まで共通の文字列として表現されているので,その裏に存在するはずの情報,由来生物は何か,転写された配列なのかゲノム由来なのか,どんな産物であるのかなどを正確に記述しなければ,殆んど意味不明な何十万,何百万という文字列の集まりでしかないのです。塩基配列データベースの中では塩基配列エントリに生物学的な意味を付与していく作業を行っています。生物学的知見といっても,普遍的部分と見解が定まっていない部分,新たに加えられる部分と様々な状態の箇所が混在しています。従って,可能な限り正確な情報を付与していくために記述ルールを見直しと,それに伴った修正作業が INSDC で絶えず行われており,これは今後も続いていきます。

学術研究・技術開発・教育と密接に関係している INSDC は塩基配列情報のアーカイブスを保存し,利用できる場所です。欧米を舞台にした外国人作家のミステリー小説を読んでいると,謎解きのために教会の図書館や書庫に保存されている資料(冊子体)を閲覧する場面が登場します。冊子体は劣化が起こるので,温度や湿度,日光への暴露などを十分に注意して管理を行うことが求められるので,不特定多数の方が容易に利用できる状況となっていないケースもあり,場合によっては貴重な(特殊な)資料となりがちです。昨今は電子化によるデータの保存とデータベースの急速な普及が相まって,データの検索や閲覧に対する労力が減っています。 INSDC のデータは電子化されているので,web ブラウザやネットワークを介したプロトコールによって,不特定多数の人々が容易に入手できるような仕組みが構築されています。

利用したい時に直ぐに利用できることが当たり前であることを求める,あるいは求められることは知識や経験の共有と伝達が継続的に行われるためにも,健全な状況であると感じます。遺伝情報を伝えてきたという,生物の営みが我々の思考に影響があるのとすれば,次世代への知識(技術も含めて)の継承と伝達(教えたい,伝えたいなども)は本能的な欲求であると考えても突飛ではなさそうです。

19. 「保存への努力」

DDBJ アノテータ 小菅 武英

先日,近くの美術館で「よみがえる源氏物語絵巻展」が開催されていたので足を運んできた。国宝源氏物語絵巻といえば,12世紀ごろに作成されたといわれ,現存する絵巻物の中では最古のものだそうだ。およそ900年前の絵巻物であるから,元の色彩を殆ど感じることができないほどに劣化している。これを,現在の非破壊検査技術を用いて,オリジナルの色彩,色使いなどを復元しようというのだ。つまり,蛍光X線分析装置を用いて絵巻物で使用されている金属元素を検出し,それを元に使用されている顔料,あるいは,染料を特定する。または,紫外線を絵巻物に照射することで,通常の可視光では見えない部分を浮かび上がらせるといった技法で,オリジナルの絵を復元しようとする取り組みであった。復元された絵巻物の色彩は実に豊かであり,感慨深げなものであった。
もちろん,科学的な検査で使用されている顔料や染料などが特定できたとしても,復元画家の力がなくてはそれを実際に復元するのはできないことである。もし,日本画の技法が900年の間に滅んでいたとしたら,科学的な分析のみで終わってしまい,価値のある復元を行うことは出来なかったであろう。
天災や戦火を経て,過去の資産を現在に伝えることができたのは,文化的な価値を認めた上で後世に伝えようとした人々努力のたまものである。また,その技法を伝えることのできる日本画家を育て続けてきたことにも意味がある。絵巻物の色のように,自然界の法則ではデータは劣化をしていくものである。DDBJでは,日々,大量の塩基配列データを蓄積し続けている。過去の塩基配列データを含め,すべては人間の努力から得られた資産ともとらえることができよう。900年前は和紙に書いて保存していたものが現在では磁気ディスクに変わり,電子化によりデータ蓄積のスピードは常に増大し続けている。現在の科学が生んだ記憶メディアに保存された遺伝子データが,何世紀もの単位で安定に維持できるというわけではない。遺伝子データベースを,人類の永遠の資産として存続させ,誰でも利用可能な状態にしていくための努力を続けていかねば,どこかの時代で消滅してしまうであろう。
現在の科学活動が生んだ遺伝子データベースが文化遺産のように千年単位で永続できるかどうかは分からないが,永久に保存する価値があるものとして,維持をしていく努力を惜しまないよう,教育活動の面でも援助が必要だとつくづく感じる。

20. 「アノテータという職業」

DDBJ アノテータ 青野 英雄

私の職業は,アノテータだ。アノテータは,どんな仕事をしているのか,謎だと思っている方も多いと思う。アノテータは日本語で言えば注釈者に相当し,科学者である一面と情報技術者である一面をもっている。塩基配列だけでは何の機能があるか分からない。そのために塩基配列上の機能を推定し,人間の理解できる言葉で生物学的注釈(アノテーション)を行うのが,アノテータだ。そしてDDBJアノテータは,登録データに記載されるアノテーションの妥当性を検証し,国際塩基配列データベースを構築するのが業務だ。

アノテータの仕事を良く知って頂くために,こんなサスペンスドラマを考えてみた。
主人公のアノテータの自宅パソコンに,塩基配列だけが書かれた差出人不明のメールが送られてくる。その日から無言電話,数万件にのぼるスパムメール攻撃,その中に混じって「塩基配列を消去せよ」という強迫メールが送られてくる。そして暴漢に襲われ,危機が迫る。そんな中,主人公は送られてきた塩基配列の解析を開始する。相同性検索,遺伝子解析ツール,インターネット検索を駆使し,やがて明らかになるのは,その配列は生物化学兵器に使用される遺伝子であった。そして収集された知見のもと,生物化学兵器を無毒化する中和抗体を作り出す。最後に,主人公は生物化学兵器の開発計画を中止することに成功する。
少しアノテータを格好良く書き過ぎた様だ。このアノテータの華麗なる活躍は,あくまでドラマの中での話だ。実際,アテータの仕事は,とても地味で泥臭い作業を行っている。コンピューター画面を見つめ,登録データのアノテーションと塩基配列に向かい合い,数百通のメールに目を通し,登録データの処理方針に頭を抱え,データベースを構築する毎日だ。しかし私は,アノテータという職業は,とてもやりがいのある仕事だと思っている。

私のアノテータ業務は,登録データの更新だ。理想的なデータベースとは,常に最新の状態で維持され,誤ったデータを極力少なくすることだと考えている。データの更新は,登録者の方からの依頼に基づく業務だけでは終わらない。1980年代から蓄積され続けている全データを対象に,修正を行う作業も存在する。ある意味,データ更新業務は,データベースの精度管理の役割も担っている。
私はデータベース内を検索し修正していく中で,幾重にも遺跡が積み重なるトロイ遺跡の発掘を行ったハインリッヒ・シュリーマンと自分を重ね合わせてしまった。その当時正しかった内容のデータ,何らかの入力ミスによる誤りのあるデータ等,様々なデータがまるで地層の様にデータベースの中に積み重なっている。その中を掘り進め問題のあるデータの修正を行うことは,貴重な宝物を発掘し綺麗に磨き上げ修繕する事に等しい。そして巡り合う様々なデータは,知の集積であり,未来の子孫へ託す至宝なのだと感じる時がある。

私は巨大データベースを構築していく経験から,情報は水に例えることができるという知見を得た。そしてデータ管理は,治水に例えることができると思った。治水管理は,最小限の労力で貯蔵した水が漏れ出さない様にコントロールするのが理想だ。データ管理も同じ事が言える。アノテータはデータベースという巨大なダムを構築し治水を行い,そして新たに注ぎ込まれるデータを,データベースに合致する内容に整え流し込んでいく。さらに注ぎ込まれるデータが問題なく管理される様に,データベースという入れ物を構築していく。言わばアノテータは水先案内人であり,治水管理者である。そしてデータ更新は,水質浄化ということができる。
私達アノテータは澄み切った巨大なデータベース(プール)を構築し,生命科学の基盤を堅固なものにしたいと考えている。そして国際塩基配列データベースを未来へ引き継ぐことを使命と考えている。この巨大事業は,皆様の協力を失くしてはあり得ない。DDBJにデータを御登録頂き,そして最新の知見をデータに反映するため更新に御協力を頂いている皆様に,この場を借りて感謝の意を表したい。

21. DDBJのあるところ

DDBJ アノテータ 坂井 勝呂

DDBJ がある国立遺伝学研究所(以下,遺伝研)は,静岡県東部,伊豆半島の中北端に位置する三島市にあります。この地にたって,遠望致しますと,東に箱根,伊豆の山々,北西には宝永火口を正面に向けた富士山が目に入ります。春先の良く晴れて空気の澄んだ日などには,真白な雪を頂く美しい富士山を眼前に見ることが出来ます。この富士の雪解け水が,地下水となり,富士溶岩の間から湧き出ているため,市内の各地で湧水が見られ,国土交通省が認定する"水の郷百選"にも三島市は選ばれています。

歴史を辿りますと,律令時代のむかし,この地に伊豆国の国府が置かれ,奈良時代には国分寺や国分尼寺も建立されたそうで,三島が伊豆の政治的,文化的な中心であったことが偲ばれます。また,東海道と下田街道・甲州道が交差する交通の要所としても発展し,江戸時代には,東海道の11番目の宿駅"三島宿"と定められています。

しかし,何と言っても,三島は三嶋大社の"門前町"であり,現在も三嶋大社が三島の観光の中心かと思います。三嶋大社は,戦前は,官幣大社としての社格を有していたそうですが,その昔,源頼朝が,源氏再興の旗揚げをしたことがつとに有名です。実際に,境内には,源頼朝と北条政子が腰掛けたといわれる「腰掛石」と呼ばれている一対の石があります。また,故事にならい,現在も,お盆の夏祭りには,三嶋大社で"頼朝公の旗揚げ出陣式"が行われ,その後,武者姿の頼朝公一行の行列が市内を練り歩きます。

話は少し反れてしまいましたが,遺伝研は,三島市の中心市街地からは東側に外れた谷田("やた"と読みます)というところにあります。近くに,温泉があることはあるのですが,観光客が大挙して,という場所ではなく,住宅があり,田畑があり,学校があり,スーパーやコンビニがある生活の場,といった風情の場所です。しかし,遺伝研の4月に毎年行われる一般公開の日には,市外や県外からも訪れる大勢の人で,賑わいをみせます。新幹線で来られた場合,三島駅からバスやタクシーを利用されるかと思いますが,時間にして,20分ほどの距離です。もちろん,時間に余裕があれば,徒歩で三島の街を散策しながら来られても面白いかと思います。

谷田は,大雑把にいって,箱根を水源とし,三島を南北に流れる大場川流域の平野部と箱根西麓の丘陵地からなります。平野部には,現在も水田が残っていますが,全体的に宅地化が進んでいます。一方,丘陵地は古くから畑作地として利用されてきたようで,現在も多くの野菜類等が栽培されています。遺伝研は,平野部から少し上った微高地にあるのですが,この土地は日当たりもよく,地味豊かな土地であったようで,かつては畑として耕された土地だったそうです。戦前,日本の航空機メーカーの中島飛行機の銃架装置などを製造する工場が,この畑地に建設されたが,敗戦後,その跡地に遺伝研が新たに設立されたという経緯があるそうです。当時の地図などを見ると,詳細はさすがに異なりますが,現在の遺伝研の建物の配置を思わせるように工場があり,ここで働いているものとしては,大変感慨深く,興味深いものがあります。

もっとも,この地には,水に恵まれ,土地もやや丘陵のためか,数千年の昔から人が生活の場としていたようで,事実,旧石器〜弥生時代の土器・石器が発掘される遺跡がここ谷田で多数見つかっています。特に,遺伝研周辺だけでも,縄文時代や古墳時代の土器の見付かる遺跡が3つ4つ発掘されています。また,平安時代の延喜式神名帳にその名が所載された剱刀石床別命神社(つるぎたちいわとこわけのみことじんじゃ)や,その前身が811年に開山した真言宗の寺と伝えられる古刹の長泉寺の存在からも,この地域が,古代から何世代にも渡ってこの地で人が生活し,土地を切り開いてきた一帯であることが推察されます。秋の高く蒼い空と緑の山々を背景に,日々強くなる黄金色の稲穂が風にそよぐ谷田の秋の景色も,古人の苦労を慮ると,より一層美しいものに感じられます。

長々と遺伝子や遺伝学とも関係の無い文章を書き連ねてきましたが,皆様が利用されている DDBJ がどのような場所にあるのか,読者の皆様に少しでもその印象が伝われば,この小文の目的は達せられたのではないかと思います。

22. 「信用・信頼」

DDBJ アノテータ 李 慶範

「“まだですか,バス時間に間に合わないです。もうちょっと早くしてください” “お客さん,例えばご飯というのも米に時間をかけ,炊いてからなるもの!急がせても時間をかけなくては米はご飯になりません!” “買う人がいいと言ってるのに,おじいさん頑固ですね。もういいです,おじいさんの思う存分やってみてください” その後も老人はじっくり時間をかけダドゥミ棒を削った。人から見てももういいのではと思われるが老人の目にはまだ未完成の品のようだ。 ”あの,物というのはまともに作らなきゃ、未完成の物を人に渡すのは・・・” 漸く完成したダドゥミ棒をもらって次のバスに乗り家に帰った。妻にその棒を渡したら妻は出来上がりが絶品だと大変喜んだ。妻の喜んでいる姿を見てその棒を作ってくれた老人にすまない気がした」中学校の国語教科書に出たエッセイの一部分である。 現代化により社会が迅速化, 大量化に変化する中でたとえ小さいことでも魂を込めて品を完成する姿を老人は私たちに教えてくれていた。
ダドゥミとは昔から韓国の家庭において女性の必須品で,平らな石板の打ち台とダドゥミ棒のセットを示す。打ち台は主にお影石で横 20 cm, 縦 80 cm, 高さ 15 cm 位を削って上部はちょっとお腹が出た形態。 棒は堅い斧折を材料にして 35 cm 〜 40cmの長さで丸く長く削って, 取っ手終り部分は細長く整えた形である。 主に乾燥した洗濯物を石板に載せダドゥミ棒を用い,縮んだものを伸ばしたり,しわ(皺)を直す道具として使われた。 別用にもダドゥミ棒は料理に使われる蔓人参や干し明太を軟らかくするために叩く道具としても使われる。 ダドゥミ叩きは独特の音が出るがその音がリズムになり非常に軽快な音になる。
現在,ダドゥミ叩きの音は思い出の音として”韓国の音100選”に選ばれている。 その音は確かに品を作る人の心から大切に使
う人の心がハーモニーになり響く音だと思われる。最近,頻繁に信用" 信頼に関する問題が取り上げているのではないかと思う。建物の耐震構造偽装,電車事故,大型自動車メーカーの欠陥隠し,食品の安全,偽データによる情報など社会全般的に今まで信用" 信頼で大切に蓄積された絆が揺れている気がする。もし、利益及び競争のためには手段を選ばないとの考え方が広がっているとするなら,信用" 信頼は形に過ぎないと思える。
アノテータの道に入ってからわずかな時間が経っているが,登録者からの登録データと登録データを利用する利用者の間で架け橋の役割がアノテータの職だと感じている。何よりも両方において信用" 信頼を大切に蓄積し,良いハーモニーを構築し続けなければならないと思う。 DDBJ を20年間支えて来た舘野義男先生の最終講義での「お互いに信頼できる人と一緒にすること」の言葉が改めて心に響いている。

”韓国の音100選”のダドゥミ叩きの音”

23. 第20回国際遺伝学会 DDBJ のブース展示報告

DDBJ アノテータ 野崎 亜沙美

2008年7月12日から17日まで、ドイツ・ベルリンの国際会議センターにおいて、20回国際遺伝学会 XX International Congressof Genetics が開催されました。国際遺伝学会は、5年に1回、開催されており、今年は、世界中から、2000人を超える研究者が参加したと聞いています。DDBJでは、日本遺伝学会のブースの一部をお借りして、DDBJの活動紹介を行いました。

column_25
会場となった ICC ベルリン

日本遺伝学会では、2013年に開催予定の国際遺伝学会を日本への招致する運動の一環としてブース展示を行いました。DDBJより参加した私たちも、招致運動のお手伝いをさせていただきましたので、まず、そのブースの様子を紹介します。 日本遺伝学会のブースは、日本や会場予定地の京都に因んだポスターや、番傘を展示し、大変華やかなブースとなりました。

column_26
ブースの様子。この後、番傘も飾り、いっそう華やかに。

ブースには、多くの方にお立ち寄りいただきました。日本を訪れた際のエピソードを話してくださる方も多く、日本が好きで、ぜひ行きたいという方が大勢いました。日本を紹介するパンフレットや京都の風景のポストカード、ピンバッチなどのグッズも好評でした。また、折り紙が意外と好評で、折り方を知りたいという方には、折り方を教えながら鶴を折ると、大変喜んでいただけました。多くの方が日本での開催を期待してくださったにも関わらず、残念なことに日本への招致には至らなかったのですが、今回、この様な形でブース展示のお手伝いをさせていただいて、国際的な場でのブース展示という観点から、多くのことを学んだと思います。
DDBJでは、小規模ではありましたが、DDBJの概要およびサービスに関するポスターの展示と、塩基配列の登録、およびその他のサービスに関するパンフレットを100部程度、配布しました。開催国がドイツということもあり、残念ながらDDBJの知名度は低いようでしたが、日本以外で、DDBJに対する生の反応を知ることができた良い機会となりました。ブースにお立ち寄りいただいた方々のうちDDBJを知っている方は、中国、マレーシア、インド、シンガポールなど、アジア系の方が多く、欧米の方は、数名程度でした。中にはDDBJへ塩基配列の登録経験者もいましたが、半分以上が日本留学経験者でした。DDBJを知らない方でも、GenBank-NCBI、EMBL-EBIの名前を出して説明すると反応があり、塩基配列の登録という点では、GenBankの知名度の高さを感じました。今回のブース展示により、少しでもDDBJの利用者が増えることを期待したいと思います。
DDBJのアノテータが、日本以外で開催される国際学会に参加する機会はあまりないため、今回、大変貴重な体験をさせていただきました。さらに、私にとっては初めての海外出張であったため、全てのことが新しく、色々な意味で得るものが多ったように思います。初めて訪れたベルリンですが、素敵なところがたくさんありました。学会最終日の夜、全ての仕事を終えた後に見に行ったブランデンブルク門は、ライトアップされて大変美しく、最も印象に残りました。

column_27
ライトアップされたブランデンブルク門

最後に、このような機会を与えてくださった先生方、現地でお世話になった方々、その他関係者の方々に、この場を借りて御礼申し上げたいと思います。

24. 「第 N 世代シークエンサー(N=0, 1, 2, 3, 4)」

国立遺伝学研究所 集団遺伝研究部門 教授 斎藤 成也

塩基配列データベースを運営する DDBJ にとって,塩基配列の自動決定装置,いわゆるシークエンサーの動向は重要である。最近になって,第二世代と言われるシークエンサーが続々と登場しているが,それらを中心として,シークエンサーの開発を歴史的に考えながら,将来の展望を含めて考察してみたい。
DNA が遺伝子の物質的本体であり,その構造が二重らせんであることが20世紀の前半ごろまでにわかってから,DNA の塩基配列をいかにして速く精確に決定するかが,生化学,分子遺伝学の分野で重要な課題となった。ようやく1970年代の中頃になって,ふたつのまったく異なる方法が提案され,提案者はどちらもノーベル化学賞を受賞した。ひとつはマクサム・ギルバート法である。生化学の常道にのっとり,長い塩基配列を4種類の塩基に対応する試薬を使って切断し,切られたDNA断片の長さを電気泳動法で測定し,長さの順に配列を決定するものである。もうひとつは, DNA 複製酵素の働きを使って, DNA をランダムな長さに複製するという,いわば逆転の発想をしたサンガー法である。複製を止めるために,ダイデオキシヌクレオチドという,生物が使わない物質を用いる特徴があるので,ダイデオキシ法とも呼ばれる。
第ゼロ世代のシークエンサーは,日本の和田昭允が開発した。マクサム・ギルバート法をもとにしたものだったが,様々な問題に直面したために,このシークエンサーは広く使われることのないままに開発は頓挫してしまった(岸,2004)。
第1世代のシークエンサーは,サンガー法を用いて,4種類の塩基を蛍光色素で識別するものである。最初は電気泳動を通常のアクリルアミドゲル上で行なったために,世界のあちこちで,数十センチもある大きなゲル板と格闘する研究者が見られたが,その後日本の技術でキャピラリータイプに変わっていった。ゲルを用いた時代からみると大きな変化ではあるが,サンガー法という意味では同一である。また大量に配列を決定するという点から見ても,ゲルとキャピラリーはそれほど大きな違いはない。20世紀末から21世紀初頭にかけて, ヒトゲノムをはじめとして,多数の生物のゲノムがこれらのシークエンサーで決定された。
サンガー法はすばらしい方法なので,30年近くにわたって DNA 生物学の世界に君臨してきた。しかし,塩基配列の並び方を電気泳動法で推定するという原理は,超小型化には不適切だったようだ。このためか,第2世代シークエンサーは,まったく異なる原理を使っている。ただ,サンガー法に慣れ親しんできた人間からみると,電気泳動を数十センチでなくても,数ミリの距離で終わらせて,それを顕微鏡で観察したら塩基配列を推定できるのではなかろうか,などと考えてしまう。生化学的には,実験スケールをこのように小さくすることはよくないのかもしれないが,アクリルアミドゲルは長いあいだ使われてきた技術なので,ぎりぎりまでマイクロ化する試みを今後も続けてほしいものだ。と書いたところで,ちょっと PubMed を検索したら,このアイデアに基づく多数の論文がすでに発表されていることを知った。最近では, Fredlake ら(2008)がある。
さて,第2世代シークエンサーである。一般には,次世代シークエンサーと呼ぶことが多いようだ。製品化されているものは現在3種類である。どれも塩基配列の伸張反応を段階的に検出するので,塩基配列の長さを測る必要がない。ひとつは,SNP 検出に以前から使われていたパイロシークエンス法を応用した454。この,数字がならんだ不思議な名前は,装置の規格かなにかに由来するらしい。通常の光を発するルシフェリン・ルシフェラーゼ系に持ってゆくので,検出装置もレーザーではなく,CCD カメラである。ジェームズ・ワトソンの個人ゲノムは,この装置を用いて決定された(Wheelerら,2008)。
2003年にとりあえず一段落したヒトゲノム配列決定には,世界中で総額数百億円が投入されたのではないかと思うが,この第二世代シークエンサーでは,5000万円ほどで決定されたとのことである。
実は,私の研究室でもパイロシークエンス機を用いて塩基配列決定を試みたことがある。ヒトミトコンドリア DNA の部分塩基配列(D ループともコントロール領域とも呼ばれる)は多型性が高く,これまでに数万人規模の塩基配列が世界中で決定されている。ところがアジア人には,この領域に塩基 C が10個前後並んだ部分がある。このような配列特異性のために,体細胞突然変異率が極めて高く,DNA によって塩基 C の個数が異なる,ヘテロプラスミー現象がひんぱんに生じることが知られている。このために通常のサンガー法では,このホモ C 領域以降の塩基配列が読めなくなる個体が続出したのである。そこで,私は SNP 検出に使っていたパイロシークエンス機を塩基配列決定に使うことを考えた。当時の機械では,まだ100塩基程度の長さしか塩基配列決定ができなかったが,ホモ C 配列の上流は通常のサンガー法できちんと読み取れるので,下流の部分だけを決定すればよい。パイロシークエンス法は,このようなホモ塩基配列の決定に弱点があるが,その弱みを逆に利用することにした。ホモ塩基配列はもともときわめて突然変異率が高いので,塩基配列を多重整列して系統樹を作成するには不向きな領域なのである。 そこで,その部分は無視することにした。結局この方式で塩基配列を決定することができた(嶋田ら,2002)。
ところが,ゲノム配列決定を日常的に行なっている研究者は,ホモ塩基配列といえども厳密に決めるのがこれまではあたりまえのようだ。しかしミトコンドリア DNA と同様に核 DNA でもそのような領域は突然変異率がきわめてたかく,遺伝的多型の程度が高いので,ある生物のゲノム配列をまず決定する時には,とりあえず無視してもよいのではないかと,私は考えている。このような態度をとれば,454は,今年,2008年末には1反応で500塩基程度まで読むことができるようになるので,決定できる塩基数がサンガー法に匹敵することになり,魅力的である。
第2世代のその他の2方法は,454に比べるとずっと短い配列しか読むことができない。Solexaは36塩基,SOLiD は50塩基である。ただ,どちらの方法も,454よりもずっと多量の反応を平行してこなせるので,一度に決定できる塩基配列総数はかなり多いようだ。ヒトゲノムの場合にはすでに参照ゲノム配列が存在するので,これら短い配列しか決定できない方法であっても,ゲノム配列に貼り付けてゆくことにより,遺伝的個体差を検出することを主な目的とする,いわゆるリシークエンシングには有用だろう。バクテリアのように繰り返し配列が少ないゲノムであれば,新規生物のゲノム配列決定にも使えるだろう。通常使われる PCR プライマーの長さが20塩基程度なのに,それらがゲノム中の特定領域を増幅することができることを考えれば, 数十塩基の配列といっても,数十億個あるいはそれ以上の塩基からなるゲノム配列の単一部分に対応することができるはずである。日本でも,産業技術総合研究所が沖縄県と共同で微生物ゲノムや日本人標準ゲノム配列取得をめざして,今年からこれらの機械を使う予定である (産総研プレス・リリース; 次世代シーケンサーによる先端的ゲノム研究を国内に先駆けて始動)。
第2世代のシークエンサーがようやく使われはじめたところなのに,第3世代のシークエンサーが提案された(Korlach ら, 2008)。ナノスケールの技術を使っており,薄い膜にずらりと作られる小さな孔の1個につき1個の DNA 分子をつなぎとめる。その孔には DNA ポリメラーゼが入っており,そこで DNA 複製がおこるたびに,蛍光色素が結合された4種類の塩基のどれかがつながれるたびに,孔から特定の光が発せられ,それを CCD カメラで検出するというものである。この場合,第2世代シークエンサーと異なり,DNA 複製酵素という生物で使われるものを使っているので,長い塩基配列を読むことが可能だという。第2世代と第3世代の違いは,ちょうど第0世代と第1世代の違いに対応すると言えるだろう。
実は,塩基配列決定にはすでにいろいろな方法が提案されており,提案だけにとどまっていることが多い。このため,実際に使うことができるマシンが登場しなければ,信用しにくいのであるが,2年後の2010年には製品化するとのことである。
そもそも,DNA は染色体1本まるごとつながっているのだから,そのつながりをそのまま保存して,塩基配列を連続して決定できれば理想的である。現在の技術では,せいぜい200kb 程度の長さの BAC クローンをひとつの長さとして,それを断片化して個々の断片を配列決定した後,コンピュータで配列を推定しているにすぎない。生物学者の理想は,BAC クローンの端から端までそのまま DNA 配列を決める,さらには染色体まるごとの DNA 配列を決めてしまうというものだ。こうなると,細胞の中に染色体があるままの形でマイクロマシンが細胞内に入り込み,DNA 分子の端を認識して,そこから長大な DNA 分子を滑るように動いていって,そのあいだに塩基配列を認識し,シグナル光を発してゆく,という仕組みが考えられる。こうなると,あっというまに全染色体の塩基配列を,そのままの姿で決定できるかもしれない。真の意味でのギガベース配列決定である。これは,第4世代ということになるのであろうか。第3世代が到来したら,このような夢物語も意外と実現するまでに短期間になるかもしれない。

引用文献
・岸宣仁(2004)『ゲノム敗北』ダイヤモンド社。
・嶋田誠,金衝坤,高橋文,斎藤成也,池尾一穂,五條堀孝,V. A. Spitsyn(2002)ロシア・ブリアート人集団におけるミトコンドリア DNA 多型. DNA 多型,10巻, 151-155頁.
・Fredlake CP, Hert DG, Kan CW, Chiesl TN, Root BE, Forster RE, and Barron AE. (2008)
Ultrafast DNA sequencing on a microchip by a hybrid separation mechanism that gives 600 bases in 6.5 minutes. Proc Natl Acad Sci USA, vol. 105, no. 2, pp. 476-481.
・Korlach J, Marks PJ, Cicero RL, Gray JJ, Murphy DL, Roitman DB, Pham TT, Otto GA, Foquet M, Turner SW. (2008)
Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nanostructures. Proc Natl Acad Sci USA, vol. 105, no. 4, pp. 1176-1181.
・Wheeler DA, Srinivasan M, Egholm M, Shen Y, Chen L, McGuire A, He W, Chen YJ, Makhijani V, Roth GT, Gomes X, Tartaro K, Niazi F, Turcotte CL, Irzyk GP, Lupski JR, Chinault C, Song XZ, Liu Y, Yuan Y, Nazareth L, Qin X, Muzny DM, Margulies M, Weinstock GM, Gibbs RA, Rothberg JM. (2008)
The complete genome of an individual by massively parallel DNA sequencing. Nature, vol. 452, no. 7189, pp. 872-876.

ページの先頭へ戻る