DNA Data Bank of Japan
DDBJ メールマガジン 
No. 22  2005年9月30日発行
English
apply 申込・変更
top 最新号 top
backnumber 過去の号
ddbj 発行:DDBJ
Search for
サイトマップ
ご利用の前に
DDBJ とは?
塩基配列の登録
  SAKURA
  大量登録
  登録データ更新
検索・解析
  ARSA   getentry
  TXSearch  
  FASTA   BLAST
  SSEARCH
  HMMPFAM
  ClustalW
 
  Web API
 
  GIB
  GIB-V
  GTPS
  GTOP
リリース詳細
リリース取得
  DDBJ リリースノート
  公開中リリース
Q and A
生命情報学へのとびら
  講習会   関連会議
  ゲノム機能発現研究会

 DDBJ の連絡先  mail
Copyright © 1995-2006
DDBJ All rights reserved.
 ■秋なのできのこに座る黄色い小人 
隔月公開の DDBJ メールマガジン第22号 web 版です。 今回は記事が長いので,もくじを載せておきます。 きのこに座る黄色い小人
  1. 国際塩基配列データベースの総塩基数100ギガ突破
  2. イネゲノム解析結果公開
  3. チンパンジー全ゲノム解読
  4. ヒトおよびマウスにおける超大量転写物配列データの公開
  5. カニクイザル cDNA データベース公開
  6. DDBJ HP に新項目追加
  7. MGA 公開データのフォーマット改訂
  8. DDBJ リリース公開
  9. DDBJing 講習会開催報告
  10. 第18回国際実務者会議報告
  11. SF gate-WAIS と malign サービス終了
  12. DDBJ スタッフコラム11 その正体
メールマガジンに関するご質問やご意見がありましたら ddbjmag@ddbj.nig.ac.jp までメールをお送り下さい。
写真は国立遺伝学研究所内にある桜の幹に生じたきのこです。

 ■国際塩基配列データベースの総塩基数が100ギガ(1000億)突破 
DDBJ/EMBL/GenBank 国際塩基配列データベースで収集・提供している塩基 (DNA, RNA) 総数が2005年8月に100ギガ(1000億)塩基を超えました。 これは,欧州の EMBL Bank,米国の GenBank そして我が国の DDBJの3者相互による,国際データ交換によって到達した快挙といえます。 なお,3者のデータバンクの総称は,今後 International Nucleotide Sequence Database Collaboration(INSDC,国際塩基配列データベース共同体) とすることになりました。
国立遺伝学研究所 生命情報・DDBJ 研究センターの五條堀孝センター長は以下のようなコメントを発表しています。 「国際塩基配列データベース共同体はその基礎を,様々な生命情報を互いに交換し合う,と言う点に置いてきた。 システムズバイオロジーの時代となった今,研究者達も,幾千もの遺伝子についての研究の成果やコンピュータによるモデル作成といったようなことに関する複雑で多様な情報を互いに交換しあうようになってきた。 “生命情報を互いに交換し共有しあう”と言う点から見ればパイオニア的存在にある3つのデータバンクが,この素晴らしい偉業を達成したことは,実に重要な意味を持つものである」
また,EMBL Bank の母体である EBI(欧州バイオインフォマティックス研究所) のグラハム・キャメロン副所長も,次のような談話を発表しています。 「これは,国際塩基データバンクの歴史において重要な到達点である。 最初の EMBL Bank の前身である EMBL データライブラリーは1980年に創設されたが,その最初の登録から,今日の少なくとも20万種類の生物から得られた5,500万配列に昇るデータは,世界中の分子生物学者の要求に応えもるのである」
NCBI(国立バイオテクノロジー情報センター・GenBank の母体) のデビッド・リップマン所長も次のように述べています。 「今日の塩基配列データベースのおかげで,研究者達は,完全ゲノムの情報や生態系の遺伝的構成要素,特許に関連した配列情報などを共有できるようになった。 国際塩基配列データベース共同体 (INSDC) は,塩基配列に関する情報を可能な限り世界的規模で共有することで,塩基配列情報に関するこのプロジェクトを始めた研究者達の夢を実現させたのだ」
国際塩基配列データベース共同体 (INSDC) は1980年に EMBL と GenBank がその活動を開始し,DDBJ も1987年より活動に加わりました。 DDBJ は,これまで日本を中心に世界各国の研究者からのデータ登録を受け付け,他の2バンクとデータの相互交換を行いながら国際塩基配列データベース共同体の発展に貢献してきました。

 ■イネゲノム解析結果公開 
イネゲノムは,既に2004年12月に日本を中心とする国際イネゲノム配列解読コンソーシアム (IRGSP) によって,「日本晴」ゲノムの完全解読が終了していましたが,その後同コンソーシアムは,解読されたゲノム配列情報を基に解析をおこない,その結果が8月11日発行の英科学誌 Nature (vol.436, pp.793-800; Aug.11, 2005) に発表されました。
独立行政法人農業生物資源研究所(茨城県つくば市)と社団法人農林水産先端技術産業振興センター(東京都港区)によると,解析の結果,イネの遺伝子は3万7544個,全体の71%は既にゲノムの解読が完了している双子葉植物のシロイヌナズナ (Arabidopsis thaliana) と共通しており,8%は双子葉植物にはない,イネなどの単子葉植物に特有のものと思われます。
このゲノム配列情報は,国際塩基配列データベースにアクセッション番号 AP008207-AP008218 で登録されており,DDBJ の getentry で取得することができます。
IRGSP には,Annotation and Analysis 担当として,CIB-DDBJ より五條堀孝(生命情報・DDBJ 研究センター長),岩間久和(2004年10月まで所属。現:香川大学総合情報基盤センター助教授)が参加しており,上記論文にも名前が掲載されています。

参考
プレスリリース(独立行政法人 農業生物資源研究所)
IRGSP (International Rice Genome Sequencing Project)
DDBJ その他の生命情報リンク:生物ごとのデータベース(イネ)
更新情報 (Build4.0)(2005.8.31)


 ■チンパンジー全ゲノム解読 
チンパンジーの全ゲノム情報の概要が米国の研究チームによって解読され,その結果が9月1日発行の英科学誌 Nature (vol.437, pp.69-87; Sep.1, 2005) に発表されました。
チンパンジーはヒトに最も近い生物で,ヒトゲノムとの比較によりヒトの進化のメカニズムや機能の解明が進むことが期待されます。
この塩基配列は,Whole Genome Shotgun データとしてDDBJ/EMBL/GenBank 国際塩基配列データベースに登録されており, getentry で取得することができます。また, FTP を利用したリリースデータ取得のページ の「WGS データ (AACZ.gz, AADA.gz)」 よりダウンロードすることができますので,どうぞご利用下さい。
なお,WGS についての詳細はこちらをご覧下さい
チンパンジーのゲノム解読については,昨年5月に理化学研究所を中心とする国際チンパンジーゲノム22番染色体解読コンソーシアムが,チンパンジーの22番染色体のゲノム解読データを同じく Nature に発表しています。

 ■ヒトおよびマウスにおける超大量転写物配列データの公開 
日本の理化学研究所を中心としたマウスのゲノムおよびトランスクリプトームを網羅的に研究している国際コンソーシウム (FANTOM Consortium) はヒトおよびマウス転写物 (transcripts) に関する統合的な解析の成果を9月2日付けの, Science (vol.309, pp.1559-1563; Sep.2, 2005)Science (vol.309, pp.1564-1566; Sep.2, 2005) に発表しました。
生命活動の維持に不可欠なタンパク質をコードする転写物(遺伝子)のみならず,タンパク質を作らない転写物 (non-protein-coding RNA: ncRNA) がマウスおよびヒトにおいて多数見いだされました。
これら多数の ncRNA がタンパク質をコードする転写物の発現を調節することが示唆され,哺乳動物における遺伝子の発現調節機構に関して重要な知見が得られました。
FANTOM Consortium には,CIB-DDBJ より五條堀孝教授(生命情報・DDBJ 研究センター長),池尾一穂助教授他が参加しており,上記論文にも名前が掲載されています。 また,上記の論文には ゲノムネットワークプロジェクト の成果の一部が含まれています。
この論文に使用された約200万の EST (expressed sequence tag),約11万の HTC (high throughput cDNA sequence) および約880万の MGA (Mass sequence for genome annotation) エントリの配列情報は,国際塩基配列データベースに登録・公開されており,DDBJの検索ツール getentry でデータを閲覧・取得することができます。

参考
理化学研究所プレスリリース
FANTOM Database
配列のアクセッション番号リスト;理化学研究所ゲノム科学総合研究センター遺伝子構造・機能研究グループ


 ■カニクイザル cDNA データベース (QFbase) の公開 
独立行政法人医薬基盤研究所 遺伝子バンクでは, 国立遺伝学研究所 生命情報・DDBJ 研究センター 遺伝情報分析研究室東京大学医科学研究所 ・ゲノム情報応用診断部門および 東京大学大学院新領域創成科学研究科ゲノム制御医科学分野 との共同研究の成果として,カニクイザル cDNAデータベース (QFbase) を開設しました。
カニクイザルは様々な実験動物として幅広く用いられているサルであり,今後の医学・薬学研究および霊長類ゲノムの進化解析に非常に有用であると考えられます。 このデータベースには,オリゴキャッピング法によって作製されたカニクイザル脳・肝臓・精巣由来 cDNA クローンの5'または3'末端塩基配列約85,000が登録され,BLAST 検索やヒト遺伝子との相同性に基づいたアノテーションにより目的のクローンを探すことができます。 また,約4,000遺伝子については cDNA の全長配列が決定され,約1,700遺伝子についてはヒト遺伝子との塩基配列の比較情報が含まれています。 ヒト遺伝子との相同性検索の結果,このデータベースの全クローンはカニクイザル全遺伝子の半分程度を含んでいると予想されます。
これらのクローンの大部分は, ヒューマンサイエンス研究資源バンク (HSRRB) を通じて供給が行なわれており,機能解析などの実験に用いることができます。是非ご利用ください。
また,このデータベースに登録されている配列は,「DDBJ/EMBL/GenBank 国際塩基配列データベース」にアクセッション番号 BB873801-BB894695 (20895 entries 3'EST配列),CJ430287-CJ493524(63238 entries 5'EST配列)で登録されており,DDBJ の getentry で配列を取得することができます。
QFbase へは遺伝子バンクトップページ のリンクよりアクセスすることができます。
また,DDBJ HP の 生命情報・DDBJ 研究センターの生命情報 web リンク, ならびにその他の生命情報リンク:生物ごとのデータベース(その他の哺乳類) にも紹介されています。

 ■DDBJ HP に新項目追加 
DDBJ HP に次の項目を追加しました。
  • INSDC のホームページ公開
    当メールマガジンの下から3番目 第18回国際実務者会議報告 にもありますように,DDBJ/EMBL/GenBank の連携のもとにある国際塩基配列データベースは,その総称を INSDC; International Nucleotide Sequence Database Collaboration とし,ホームページを立ち上げました。 DDBJ のサイト左カラムにある「DDBJ とは?」ボタンからアクセスしていただくことができます。

  • getentry web 版ヘルプ公開
    これまでは e-mail 版のヘルプのみを提供していましたが web 版のヘルプも公開しました。 getentry web 版の上部にある「HELP」ボタンからリンクが張ってあります。どうぞご利用下さい。

  • 統計の詳細(旧 DDBJ の統計)公開
    ページの名前を「DDBJ の統計」から「統計の詳細」に変更し,新たな統計を追加しました。 これまで公開していた DDBJ 活動に関する統計に加え,定期リリースを division の特徴・登録者の分布・データ登録の傾向という観点から詳細に分析した内容をご覧いただくことができます。
 ■MGA 公開データ Variable record のフォーマット改訂 
国際塩基配列データベース実務者会議での決定により,MGA (Mass sequence for Genome Annotation) データの公開形式が一部,変更されることになりました。 対象は Variable record で,各エントリ間に表示されていた "//" 行を削除します。 下記が変更内容となっておりますので,データを取得の際にはご利用者の皆様におかれましてはご注意いただきますよう,お願い申し上げます。
変更前
>ZZZZZ0000001|ABC1004AA60F1902|10|9B|lipidosis-related protein Lipidosin| MGI:2385656|
gactgtcttcggtgaatgca
//
>ZZZZZ0000002|ABC1003AE78G1607|5||||
gcggaagtcggaccggtcgca
//
>ZZZZZ0000003|ABC1003AE72P1806|6||||
gggagaccgatccgggatct
//
(以下省略)
変更後
>ZZZZZ0000001|ABC1004AA60F1902|10|9B|lipidosis-related protein Lipidosin| MGI:2385656|
gactgtcttcggtgaatgca
>ZZZZZ0000002|ABC1003AE78G1607|5||||
gcggaagtcggaccggtcgca
>ZZZZZ0000003|ABC1003AE72P1806|6||||
gggagaccgatccgggatct
(以下省略)
MGAとは?

 ■DDBJ リリース公開 
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。 9月30日に DDBJ リリース63 を完成しました。 リリース63 のエントリ数は 47,741,593,総塩基数は 52,246,110,341 塩基です。 この他に現在公開中のデータベースは以下の通りです。 FTP による定期リリースおよび新着データのダウンロードサイトは こちらです。

DNA
database
Rel.DateDDBJ
Date
EntriesBases
DDBJ6309/0509/0547,741,59352,246,110,341
Protein
database
Rel.DateDDBJ
Date
SequencesResidues
DAD3207/0507/052,429,195745,907,868
UniProt6.009/0509/052,299,834750,856,445
UniProt/Swiss-Prot48.009/0509/05194,31770,391,852
UniProt/TrEMBL31.009/0509/052,105,517680,464,593
PRF10407/0508/05422,024148,110,105
PDB PDB サイトでは週1回データの更新を行なっています。DDBJ では
データを毎日チェックし更新しています (9月30日現在 32,598 エントリ)
・Date----------------リリースノートに記載されている正式公開日付
・DDBJ date-----------DDBJで公開した日付


 ■DDBJing 講習会開催報告 
DDBJ では全国各地で「DDBJing 講習会」を開催しています。 DDBJing 講習会は,塩基配列の登録方法や DDBJ が提供しているデータベース検索・解析サービスをユーザの方々により深く理解して利用していただく助けになることを目指しています。
9月1-2日にかけて東京農業大学で 第13回 DDBJing 講習会 in 東京農大 を開催しました。 今回は東京農大関係者のみを対象として講習を行ない,約60名の参加がありました。 一般募集は行ないませんでしたが,講習会で使用した資料は ダウンロードページ から取得できますので,どうぞご利用下さい。
次回の開催は未定ですが,開催に関するおしらせはこのメールマガジンとホームページ上でご案内いたします。 また,開催のご要望がありましたら検討いたしますので,以下のメールアドレスにお問い合わせ下さい。
ddbjing@ddbj.nig.ac.jp

 ■第18回国際実務者会議報告 
DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは,国際塩基配列データベース共同構築の運営・推進を図るために,国際実務者会議を年1回開催しています。
2005年は DDBJ で 5月16日から18日に開催され,DDBJ, EMBL, GenBank 三極の活動の年次報告が行なわれた後,国際塩基配列データベース運用上の実務的な問題を以下のように討論しました。

検討事項と今後の課題
  • DDBJ/EMBL/GenBank の連携のもとにある国際塩基配列データベースは,その総称を INSDC; International Nucleotide Sequence Database Collaboration としました。
    また,INSDC ホームページを立ち上げました。
  • 2003年から検討を重ねていた,INSD_XML 形式のデータ提供を試験的に開始しました。 DDBJ では EMBL, GenBank に先駆けて getentry による個別の閲覧,FTP による取得を可能にしています。
  • 2004年から MGA 登録を受け付けていますが,その受け入れ基準と公開形式を再検討しました。
    MGAとは?
  • 2002年から TPA 登録を受け入れてきましたが,これまでは,その根拠が生物学的な実験に拠らなければならない,としてきました。 今後は,実験に拠らない推定でも,登録可能とする方向で受け入れ範囲を拡大する予定です。 そのための新しい受け入れ基準を検討しています。
  • 2003年からゲノムプロジェクト用に feature 継承のための識別子として locus_tag qualifier を使用可能としておりました。 これまでは locus_tag に自由度の高い記載を許してきました。 しかし将来的にも、データベース全体を通じてユニークなIDとしての機能を維持していくために登録時に割り当てる基準を検討しています。
    また関連して,フラットファイルに主にゲノムプロジェクトを特定するためのフラグとして PROJECT_ID 情報を含めるために,情報基盤整備を進めています。
  • 特に rRNA に関して,配列の向きと全長か部分かの区別が,必ずしも,正しくアノテーションされていないケースがあります。 rRNA に限らず,配列の向きなどが正しく記載されるように検証が必要,と合意しました。
Feature と Qualifier の改訂
  • Feature,特に CDS の記載に実験的な根拠があるのか,相同性から推定なのか,などを示すことが利用者から求められております。 そのような情報の受け皿として,これまで使用してきた evidence qualifier を2つの新規 qualifier,"experiment" と "inference" に分割し,詳細な表現を記載可能にします。
a) 生物学的な実験に基づくfeature の論拠 (旧 /evidence=experimental 相当)
/experiment="free text" (1000文字未満の自由記述)
b) 生物学的な実験ではない推定に基づく feature の論拠 (旧 /evidence=not_experimental 相当)
/inference="[TYPE]( same species):[evidence basis]"
(ただし、[TYPE] は別途定める規定値)
 
注)/evidence=experimental,/evidence=not_experimental は,それぞれ下記に置き換えます。
     /experiment="experimental evidence, no additional details recorded"
     /inference="non-experimental evidence, no additional details recorded"
  • 近年,環境サンプル,BARCODE project など生物多様性に登録が増加しています。 このような研究においては,配列の単離採集元の記載が重要であるため,source feature に下記の qualifier を新設します。
- /collection_date="DD MMM YYYY" or "MMM YYYY" or "YYYY"
    DD ; 日付を示す2桁の数字
    MMM ; 月を示す3文字の略号
    YYYY; 西暦年号を示す4桁の数字
- /lat_lon="###.## [N or S], ###.## [E or W]"
- /collected_by="[標本を採取した人物名]"
- /identified_by="[標本を同定した人物名]"
- /PCR_primers="fwd_name:[name],fwd_seq:[sequence],rev_name:[name], rev_seq:[sequence]"
  • intron, misc_RNA の2つの feature では,pseudo qualifier が使用不可でしたが,今後は,使用可能とします。
  • rpt_unit qualifier には location による記載,配列自体の記載の双方が可能でしたが,配列は rpt_unit_seq,location は rpt_unit_range と分割します。
  • CDS feature に ribosomal_slippage,trans_splicing の新規 qualifier を追加します。
  • organelle qualifier の規定値に "hydrogenosome" を追加します。
その他の変更 location の記載規則が,若干,変更されます。
  • "join" と "order" の併用は禁止されます。
  • n..n は使用不可になります。
  • m^n は隣接した塩基のみに制限されます。
    (n=m+1, ただし circular で該当する場合は n=1 を許可)
  • 領域を表現する場合の (m.n) は使用不可になります。 (Ex. (5.10)..100 は不可)
 ■SF gate-WAIS と malign サービス終了 
前回のメールマガジンでもお伝えしましたが,DDBJ が web 上で提供するキーワード検索システム SF gate-WAIS と web および 数値計算サーバ minerva 上で提供している塩基配列・アミノ酸配列多重整列プログラム malign は本日2005年9月30日をもってサービス終了いたします。
今後はキーワード検索には SRSARSA を, 多重整列には ClustalW (clustalw@nig.ac.jp) をご利用いただけると幸いです。 これまでご利用下さいましてありがとうございました。

 ■DDBJ スタッフコラム11 
その正体

隅山 健太
国立遺伝学研究所 集団遺伝研究部門 助手

ある日,当時二歳だった娘が公園で,オシロイバナの種といっしょに,同じくらいの大きさの小さな赤い玉を拾ってきた。 娘はこれをいたく気に入ったらしく,かわいい,かわいい,といって一日手放さず,ついに夜眠る時に布団の中にまで連れていくほどであった。 娘にとっては,これは自分を楽しませるために世界のどこからかやってきたお友達であったのだろう。

実際のところ,この赤に着色された直径数ミリの樹脂製の球体はBB弾と呼ばれるモデルガンの弾である。 Wikipedia によれば,「材質はプラスチック,または生分解性プラスチックで,直径は通常 6mm だが,マルシン工業独自の規格として 8mm も存在する。 主にエアソフトガンで使用されるが,近年は銀玉鉄砲に使用されるケースも多い。1980年代にマルゼンによって実用化された。 これによって命中精度は向上し,またその形状からマグヌス効果を利用した有効射程を延ばす機構『ホップアップシステム』が考案される等,エアソフトガンの性能向上において果たした役割は非常に大きい。 サバイバルゲームを行なったであろう公園などによく落ちている。」 とある。 恐らくある種の人にとっては,6ミリの球体という情報と,公園に落ちていたという事実だけで,こうした情報をすべて瞬時に思い浮かべることはたやすいことだろう。 受け手が既に持っている知識を前提とすれば,ごくわずかな事実の組み合わせで多くの情報を想起させることができる。 だが,受け手がそのような情報を持たない,あるいは失ってしまった場合にはどうだろうか。 インターネットなどで検索してほぼ同じ情報を得ることはできるかも知れないが,それには一定の時間と労力を要する。 もし検索で情報が見つからなければ,6ミリ,球体,公園という事実が残るだけである。 その場合情報の読み手は6ミリ,球体,公園という情報から,モデルガンとは無縁な全く新しい発想と展開を行うかも知れない。 ある時点で情報の集積が行われた後,受け手側が共有する知識がシフトしていくとき,客観的には同一の情報が大きく違う意味として捉えられることが起きうるだろうし,それはむしろ新しい科学を産み出す種として歓迎すべきなのかも知れない。 ただし,その代償として,当初「自明」であるがために記述されなかった情報に包含される関係性は消滅してしまう。 1000年後に,昔の公園には6ミリ程度の赤い玉が大量に散らばっていたという事実を考えるとき,それが儀式に用いるために作られた赤米の代用品であった,などという推論が出てもおかしくはない。 事実の情報が集積され提供されるとき,それが孕むメディアとしての性質は重要で,どのように事実の情報が選ばれ提示されるのかが,その情報を新たに出発点とする受け手側に与えていく影響は小さくないだろう。

今私の手許には,研究中に拾い上げた「AGATAAATTAC」という配列がある。 娘の赤い小玉の場合とは違い,私に本当のことを教えてくれる情報源はない。 謎が残ったままなのは残念だが,私はこの配列をとりあえず「かわいい」と思うことにする。



  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行: 日本 DNA データバンク (DDBJ)
  大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111
Last modified: Oct. 07, 2011