HOME > レポート・統計 > メルマガ
DDBJ
No. 39   2008年8月8日発行
apply 申込・変更    top 最新号 top    backnumber 過去の号    ddbj 発行:DDBJ
sunflower cicada
8月に入り夏真っ盛りとなりました。遺伝学研究所では,真夏の象徴,蝉の一斉大合唱が始まり,空気が割れる 程の音響が響き渡っています。建物内にいても聞こえてくるその声に夏を感じながら仕事に励む今日この頃です。
毎日暑いですが今年の夏を楽しみたいですね。健康にはくれぐれもご注意くださいませ。

隔月公開の DDBJ メールマガジン第39号 web 版です。メールマガジンに関するご質問やご意見がありましたら ddbjmag@ddbj.nig.ac.jp までどうぞ。
Trace Archiveは大規模なシーケンシングプロジェクトにおけるシングルパスの配列データについて、trace (クロマトグラフ) に加えて、 ベースコールと品質のデータのアーカイブです。
http://www.ncbi.nlm.nih.gov/Traces/trace.cgi

DDBJ は長年の懸案であった Trace Archive に、昨年度下期から ライフサイエンス統合データベースプロジェクト の補完課題を受けて取組を始め、2008年7月に2件を公開するに至りました。

1. 国立遺伝学研究所 (以下、NIG) が決定した Oryzias latipes (メダカ) の WGS データに対応するトレースデータ;
NCBI によって付与される TI 番号は以下の通りです:
  • 2095022956-2095389675
  • 2095396176-2096435759
  • 2096858496-2096933759

* 関連アナウンス : メダカ strain Hd-rR の WGS 134,429 エントリと CON 6,928 エントリ、strain HNI の WGS 346,141 エントリと CON 38,235 エントリの公開
2. 東京大学(以下、UTCOB)が決定したヒト腸内微生物群の WGS データに対応するトレースデータ;
NCBIによって付与される TI 番号は以下の通りです:
  • 2097946941-2099007079

* 関連アナウンス:ヒト腸内微生物群 metagenomic WGS データ 353,805 エントリの公開
(1) WGS エントリへのアセンブル
トレースデータのサイズは以下の通りです :
(a) 約 50Gbytes (NIG から頂いたデータで、gzip 圧縮された tar ファイル形式です。.qual, peak, .seq に .scf を含んだサイズ)
(b) 約 40Gbytes (UTCOB から頂いたデータで、gzip 圧縮された tar ファイル形式です。.scf のみを含んだサイズ)
(a)と(b)のトレースデータは、両方ともアセンブルされて WGS エントリとして登録されています。
詳細は以下の通りです:
(a) は当初のアセンブルの結果、BAAF の WGS エントリの一部になりました。(フラットファイルを gzip 圧縮した tar ファイル形式で、約 309M bytes あります)。 (a) はさらにアセンブルされて DG000001-DG000024 の染色体情報になっています。
詳細な情報については、メダカゲノムプロジェクトホームページ をご覧ください。
(b) はアセンブルされた結果、BAAU-BABG の WGS エントリになりました。(フラットファイルを gzip 圧縮した tar ファイル形式で、約 272Mbytes あります)。
(2) ファイル転送について
当初、NCBI にデータをアップロードするのに FTP を直列に実行する方法をとっていましたが、これですと NCBI へファイルを転送するのに多大な時間をとってしまうことがわかりました。 そこで、大きなファイルを高速で転送する手法を調査した結果、今回は複数のファイルを転送するのに、FTP を並列に実行することで対応を行いました。 当初の想定では、ファイル全体を転送するのに丸 2 日かかる見込みでしたが、最終的には数時間程度で転送を完了することができる様になりました。
今回、上記 2 件のデータは NCBI の Trace Archive から検索可能となっております。DDBJ では、さらにこれらのデータを独自に公開するサービスを行う準備を始めております。
DDBJ が WWW ならびに E-mail,Web API で提供しているサービスのうち,下記サービスの提供を終了いたします。ユーザの皆様にはご不便をおかけいたしますが,ご理解くださいますようお願いいたします。
サービス名 終了日 代わりに使用できるサービス
E-mail による検索・解析サービス
  getentry 2008.9.12 getentry (WWW 経由*1WABI 経由*2
  get-version 2008.9.12 getentry (WWW 経由*1WABI 経由*2
  FASTA 2008.9.12 FASTA (WWW 経由*1WABI 経由*2
  BLAST 2008.9.12 BLAST (WWW 経由*1WABI 経由*2
  SSEARCH 2008.9.12 SSEARCH (WWW 経由*1
  ClustalW 2008.9.12 ClustalW (WWW 経由*1WABI 経由*2
  HMMPFAM 2008.9.12 HMMPFAM (WWW 経由*1
キーワード検索
  SRS
(WWW 経由,WABI 経由とも)
2008.12.26 ARSA (WWW 経由WABI 経由*2
==>SRS のサービス終了について
配列パターンマッチ
  SQmatch 2008.11.14  
タンパク質データベースおよび構造解析
  PDB Retriever 2008.11.14  
  Libra 2008.11.14 GTOP (WWW 経由WABI 経由*2
  Lib score 2008.11.14  
*1:WWW でクエリーを送信し,結果を E-mail で受け取るサービスは引き続きご利用いただけます。
*2:WABI=Web API for Biology; Web API をプログラムから呼ぶことによって利用いただけます
SRS (Sequence Retrieval System) のサービス終了について

DDBJ では,現在,キーワード検索サービスとして,SRS(Sequence Retrieval System) と ARSA(All-round Retrieval of Sequence and Annotation) の2つのシステムを WWW ならびに WABI にて提供しておりますが,2008年12月末日をもちまして,WWW,WABI ともに,SRS の提供を終了することになりました。1999年1月に WWW 版を公開して以来,長らく SRS をご利用いただいておりますユーザの方には ARSA に乗り換えていただくお手間をおかけすることになり恐縮ですが,今後は ARSA をご愛用くださいますようお願いいたします。以下に,SRS と ARSA の比較をとりまとめましたので,ご参照下さい。

(1)ARSA と SRS の検索機能について
               A R S A S R S
基本検索
エンジン
高速 XML 型データベース検索エンジン(インターステージシュンサク(Interstage Shunsaku))を塩基配列データベース用に適合 EBI(European Bioinformatics Institute) で開発されたキーワード検索システムをDDBJ データベースの検索に便利な形に再構築
特徴
  • 複雑な検索条件や大量のヒットがある条件で検索しても,これまで提供してきたキーワード検索システムに比べて遥かに短時間(5〜10秒)で検索結果を返すことが可能
  • DDBJ を対象にした検索では,Features/Qualifiers を指定した詳細な条件による検索が可能
  • SOAP/REST による各種 WEB API の利用が可能
  • シンプルなキーワードのみを指定する Quick Search から,検索式を直接指定するAdvanced Search まで,検索条件の設定を様々に設定可能
  • SOAP/REST による各種 WEB API の利用が可能
比 較 項 目 ARSA SRS
検索機能 複数 DB 一括検索  ○   ○ 
フィールド検索  ○   ○ 
DDBJ flat file の Feature/Qualifier 指定  ○   × 
高頻度単語検索  ○   ○ 
and/or/not の使用  ○ 
解析ツールとの連携  ○   ○ 
検索速度 高速 遅い
:Quick Search でも,演算子 not を簡易に指定できるように改良中(2008年8月現在)
(2)ARSA 開発の歴史
    DB 数
2004.12 DDBJ HP にて試験運用開始
検索対象 DB は,”DDBJ 定期リリース”と”DDBJ 新着データ”の2つのみ
 2 
2005.12 機能更新
24時間運用を開始
 
2007.02 検索可能 DB 数の増加  23 
2007.07 大規模な機能更新と本運用開始
<主な新機能>
  • 複数DB検索結果の一括ダウンロード
  • 結果画面での表示項目が再選択可能
  • Java や Perl からARSAの機能を呼べるように API を充実
 
2007.10 DDBJ HP デザイン更新に伴い,HP上部検索窓よりのキーワード検索が可能に  
2007.10 TX Search からの参照機能がSRS からARSA へ変更  
2007.11 2007.07 に引き続いての機能強化
<主な新機能>
  • 検索対象 DB にKEGG Pathway データベースの追加
  • DDBJ 以外のデータベースへの詳細検索機能
  • 全24DB の共通項目による串刺し検索機能
 24 
2008.05 検索対象 DB の整理
PFAM 関連 DB のうち,冗長な4DB を削除
 20 

(3)利用者数の推移
下記に2007年1月から2008年6月までの利用者数の推移を示します。 ユニークユーザ数を見ると,ARSA が継続的に増加,SRS が減少からややフラットに,という傾向が見て取れます。また,ページビューでも,2008年3月に ARSA が SRS を上回りました。
      srstoarsa_static
ユニークユーザ数: 指定した期間に1ページでも表示したホストの数。同一のホストがその期間中に複数回訪問した場合でも1回しかカウントされない
ページビュー: サイト内のページ(画像等は含まず)が何回表示されたかを示し,サイトのアクセス数の指標として最もよく利用される数値

(4)結論
DDBJ では,2004年12月に ARSA のサービスを開始して以来,より使いやすいサービスを目指して機能改善を重ねてきました。また,最近では,生命情報関連の学会でのポスター発表や,DDBJing 講習会等で ARSA での検索方法の講義や実習を行うなど,普及活動に力を入れてきました。ユーザの ARSA の利用度の増加はこれらの結果が反映されたものであり,ARSA は SRS に比肩しうるサービスに成長したものと判断し,SRS のサービスを2008年12月末を持って終了することといたしました。
DDBJ では,今後さらに,皆様からのご意見をもとにして,より使いやすく強力なキーワード検索システムを目指して ARSA の機能拡張を進めていきます。 ARSA についてのご意見・ご要望等がありましたら,ARSA にて 「Your Comment」 をクリックして, DDBJ までお送り下さい。
DDBJ/EMBL/GenBank 国際塩基配列データベース(International Nucleotide Sequence Database, INSD)で収集・提供している塩基 (DNA, RNA) 総数が2008年5月に2000億塩基を超えました。2005年8月に1000億(100G) 塩基を超えてから僅か3年で,それまでの17年分に匹敵する登録があったという試算になります。

INSD は,その仕様を配列決定の大規模化という時代の要請に対応すべく拡張してきました。顕著な例としましては,今では当然のように使われている EST (Expressed Sequence Tags) の取り扱いに関する合意があります。1993年に EST を division として別枠に扱い始めました。2002年にはドラフト段階のゲノム,メタゲノムのデータが増大してきたため,これに対応すべくWGS (Whole Genome Shotgun) データを別枠に扱うことを開始しました。

下記の図は1000億塩基に達した2005年8月の時点と,2008年5月の時点とで塩基数の割合と塩基数を比較したものです。 base growth
グラフからも読み取ることができますように,WGS,EST /GSS(Genome Survey Sequences) ともに塩基数が3年ほどで2倍程度まで増加しており,WGS の全体に対する割合は半分以上を占めています。WGS は2002年に登録の受付を開始してから6年で1000億塩基超となっております。

そもそも,近年,急増した WGS データとはどういう性格のデータでしょうか?

WGS (Whole Genome Shotgun) という語は一般的には,ゲノム全体の配列を決定するための一手法でホールゲノムショットガン配列決定法のことを指します。インフルエンザ菌(Haemophilus influenzae) の全ゲノム配列決定で初めて成果が報告されました。この手法はゲノム全体を断片化し,塩基配列を決定した後にコンピューター・プログラムを用いて1本につなぎ直し,元のゲノム配列に再構成し完成します。
INSD においては,この手法等を用いたゲノムプロジェクトが配列を再構成する途上の段階にある断片配列のデータセットを WGS データと呼びます。

さらに高速かつ大量に配列決定を可能にする技術が急速に進歩しています。これらの技術を応用した次世代シーケンサが,おそらく数年以内に普及期に入り,配列データの増加はさらに加速すると予想されます。こうした大量のデータ登録と利用に対応するために,DDBJではデータベースシステムの高速化や,使いやすいサイト構築に力を入れています。

NCBI では,454, Solexa, SOLiD などの次世代シーケンサが出力する超大量の比較的短い配列を SRA (Short Read Archive) というカテゴリで公開し始めました。DDBJ もEBI とともに SRA にと協調していく予定です。 次世代シーケンサの普及,および,SRA の需要と関連して,多くの研究者から EST アセンブル相当の配列データを INSD で受け入れることを求められています。そこで INSD では,transcriptome project から EST アセンブル相当の配列データを受け付けるために,新規に TSA (Transcriptome Shotgun Assembly) という枠組みの準備を進めています。

さて,次に3000億塩基対を超えるのは何時のことでしょうか?

2008年2月に米国 NIH からアナウンスがあった「1000人ゲノム」プロジェクトでは,すでに2000〜3000億塩基対のヒトゲノム配列データを保有しているとも聞こえてきます。これに関連しては,配列データ増大への対応のみでは不十分な状況にあります。

ATGC の連続で表現される配列のテキストデータだけではなく,シーケンサからの出力波形などの情報も提供し,配列自体の信頼度,あるいは,多型の評価などに利用するという要求が研究者間で高まっているためです。このような波形などの情報の登録を受け付けている Trace Archive に登録されたデータは,既に数十テラ(1013,兆)バイトを超えています。DDBJ は Trace Archive に未対応でしたが,昨年度からライフサイエンス統合データベースプロジェクトの支援を受けて,ようやく国内データの試験登録に着手しました。

大規模配列解析はペタ(1015)バイトを対象とする領域に突入していく見込みです。SRA や Trace Archive を考えず,INSD に登録される配列データだけで見ましても,3年で 100G から 200G に倍増したデータ量は,今後1年半程度で 300G を遥かに超えて 400G に達する可能性が十分ありそうに思えます。
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。6月24日に DDBJ リリース74 が完成しました。リリース74 のエントリ数は 87,903,140,総塩基数は 91,294,770,939 です。
FTP によるリリースデータの取得は,FTP・WebAPI のページより可能です。
DDBJ が登録を受付け,2008年6月から7月にかけて DDBJ/EMBL/GenBank 国際塩基配列データベースから公開した大量データは以下の通りです。
ショウジョウバエ EST 190,096 エントリの新規公開
京都工芸繊維大学から登録されたショウジョウバエ (Drosophila) の EST データ 190,096 エントリが公開されました。
アクセッション番号は以下の通りです。
  • Drosophila auraria 5'-EST : DK265854-DK284650 (18,797 entries)
  • Drosophila auraria 3'-EST : DK284651-DK303963 (19,313 entries)
  • Drosophila sechellia 5'-EST : DK303964-DK322998 (19,035 entries)
  • Drosophila sechellia 3'-EST : DK322999-DK342220 (19,222 entries)
  • Drosophila simulans adult female 5'-EST : DK342221-DK360662 (18,442 entries)
  • Drosophila simulans adult female 3'-EST : DK360663-DK379473 (18,811 entries)
  • Drosophila simulans larvae 5'-EST : DK379474-DK398612 (19,139 entries)
  • Drosophila simulans larvae 3'-EST : DK398613-DK417792 (19,180 entries)
  • Drosophila simulans adult male 5'-EST : DK417793-DK436903 (19,111 entries)
  • Drosophila simulans adult male 3'-EST : DK436904-DK455949 (19,046 entries)

これらは 6/14 分の新着データとしてDDBJより公開されております。また, anonymousFTP サイトから一括取得が可能です。
FTPファイル:Drosophila_EST_080614_1.seq.gz
DDBJ では全国各地で「DDBJing 講習会」を開催しています。 DDBJing 講習会は,塩基配列の登録方法や DDBJ が提供しているデータベース検索・解析サービスをユーザの方々により深く理解して利用していただく助けになることを目指しています。 6月18-19日にかけて国立遺伝学研究所,生命情報・DDBJセンターで 第19回 DDBJing 講習会 in 三島 を開催しました。前回の講習会で使用した資料は ダウンロードページ から取得できますので,どうぞご利用下さい。
DDBJing 講習会のページ
DDBJing 講習会資料ダウンロードページ
次回の開催は未定ですが,開催に関するおしらせはこのメールマガジンとホームページ上でご案内いたします。また,開催のご要望がありましたら検討いたしますので,以下のメールアドレスにお問い合わせ下さい。 ddbjing@ddbj.nig.ac.jp
2008年版 DDBJ-CIB Report の PDF ダウンロードページを公開しました。どうぞご利用下さい。
March 2008 DDBJ/CIB Reeport PDF
DDBJ が WWWE-mail サーバ で提供している 相同性検索サービスのうち, BLAST ( WWW と E-mail ) と PSI-BLAST ( WWW のみ) のバージョンアップ( 2.2.15 -->2.2.18 )を行ないました。

大型計算機( supernig ) で提供している BLAST もバージョンアップ( 2.2.15 -->2.2.18 )を行ないました。 ( 6月11日 )
ご利用ください。
getentry は DDBJ が WWW および E-mail で提供しているアクセッション番号などによる高速なエントリ検索システムです。 このたび,getentry の CON エントリの配列表示にて,一部のエントリで誤った結果が表示される状態が発生していることが判明いたしました。 詳細については下記の通りです。
  • 不具合内容:
    • 引用されているピースエントリの配列の領域が complement の場合に,誤って順鎖向き (forward) の配列が抜き出されてしまう (正しくは相補鎖 ( complement ) を抜き出すべき)。 対応致しました。( 7月3日 )
    • ピースエントリに CON エントリが含まれている場合,配列を正しく表示できない。
  • 不具合箇所:CON エントリを検索した場合,下記の配列表示あるいは配列ファイル転送が正常に動作しておりません。
    • 出力形式:"全塩基配列 FASTA" を選択
    • 取得方法:"画面表示","メール送信" または,"FTP ファイル転送" を選択
    • 出力形式:"フラットファイル ( DDBJ )" を選択
    • 検索結果画面において,DNA 配列を FASTA 形式で一括転送 (ftp) または一括表示
    • 影響のあるサービス:getentry,ARSA, Web API ( GetEntry )
    • 対応:現在問題箇所を修正中です。対応次第 HP にてご連絡致します。

    ユーザの皆様にはご迷惑をおかけして申し訳ございません。
    ご理解とご協力をお願いいたします。
getentry は DDBJ が WWW および E-mail で提供しているアクセッション番号などによる高速なエントリ検索システムです。 このたび, getentry にて Protein ID をキーとして DAD ( DDBJ amino acid database ) 検索を行った場合, 一部のエントリで誤った結果が表示される状態が発生していたことが判明いたしました。詳細については下記の通りです。
  • 不具合内容: 検索対象データベースとして DAD を, ID として Protein ID を選択して検索を行った場合に 得られる検索結果のうち, 一部のエントリにおいて以下の状態が発生する。
    複数の CDS Feature を有し, /pseudo qualifier を含む CDS Feature 以降に, /translation qualifier を含む CDS Feature があるエントリ において, /translation qualifier を含む CDS Feature に記された /protein_id からのハイパーリンクが 正しく機能していない。また, そのProtein ID を指定した DAD 検索ができない。
  • 期間:2007年2月27日 から 2008年5月22日 まで
  • 問題があった Protein ID を含む DDBJ フラットファイルのアクセッション番号:->番号リストはこちら
  • 対応:問題の不具合を修正し, データの是正を行いました。現在は対応作業が完了し, 正常に検索結果を得ることができます。

再検索のお願い
getentry にて, 該当する期間に, 該当する内容にて検索を行ったと思われる方は, お手数おかけ致しますが, 再度検索を実行して下さいますようお願い申し上げます。
ご迷惑をおかけしましたことを心よりお詫び申し上げます。
第20回国際遺伝学会 DDBJ のブース展示報告
野崎 亜沙美
2008年7月12日から17日まで、ドイツ・ベルリンの国際会議センターにおいて、20回国際遺伝学会 XX International Congress of Genetics が開催されました。国際遺伝学会は、5年に1回、開催されており、今年は、世界中から、2000人を超える研究者が参加したと聞いています。DDBJでは、日本遺伝学会のブースの一部をお借りして、DDBJの活動紹介を行いました。
ICC
会場となった ICC ベルリン

日本遺伝学会では、2013年に開催予定の国際遺伝学会を日本への招致する運動の一環としてブース展示を行いました。DDBJより参加した私たちも、招致運動のお手伝いをさせていただきましたので、まず、そのブースの様子を紹介します。
日本遺伝学会のブースは、日本や会場予定地の京都に因んだポスターや、番傘を展示し、大変華やかなブースとなりました。
exhibision
ブースの様子。この後、番傘も飾り、いっそう華やかに。

ブースには、多くの方にお立ち寄りいただきました。日本を訪れた際のエピソードを話してくださる方も多く、日本が好きで、ぜひ行きたいという方が大勢いました。日本を紹介するパンフレットや京都の風景のポストカード、ピンバッチなどのグッズも好評でした。また、折り紙が意外と好評で、折り方を知りたいという方には、折り方を教えながら鶴を折ると、大変喜んでいただけました。多くの方が日本での開催を期待してくださったにも関わらず、残念なことに日本への招致には至らなかったのですが、今回、この様な形でブース展示のお手伝いをさせていただいて、国際的な場でのブース展示という観点から、多くのことを学んだと思います。
DDBJでは、小規模ではありましたが、DDBJの概要およびサービスに関するポスターの展示と、塩基配列の登録、およびその他のサービスに関するパンフレットを100部程度、配布しました。開催国がドイツということもあり、残念ながらDDBJの知名度は低いようでしたが、日本以外で、DDBJに対する生の反応を知ることができた良い機会となりました。ブースにお立ち寄りいただいた方々のうちDDBJを知っている方は、中国、マレーシア、インド、シンガポールなど、アジア系の方が多く、欧米の方は、数名程度でした。中にはDDBJへ塩基配列の登録経験者もいましたが、半分以上が日本留学経験者でした。DDBJを知らない方でも、GenBank-NCBI、EMBL-EBIの名前を出して説明すると反応があり、塩基配列の登録という点では、GenBankの知名度の高さを感じました。今回のブース展示により、少しでもDDBJの利用者が増えることを期待したいと思います。
DDBJのアノテータが、日本以外で開催される国際学会に参加する機会はあまりないため、今回、大変貴重な体験をさせていただきました。さらに、私にとっては初めての海外出張であったため、全てのことが新しく、色々な意味で得るものが多かったように思います。初めて訪れたベルリンですが、素敵なところがたくさんありました。学会最終日の夜、全ての仕事を終えた後に見に行ったブランデンブルク門は、ライトアップされて大変美しく、最も印象に残りました。
arch
ライトアップされたブランデンブルク門

最後に、このような機会を与えてくださった先生方、現地でお世話になった方々、その他関係者の方々に、この場を借りて御礼申し上げたいと思います。
  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行:日本 DNA データバンク (DDBJ)
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111