DDBJメールマガジン No.65


No. 65   2011年10月27日発行
申込・変更    最新号    過去の号    発行:DDBJ


「三島探訪」~ 三島溶岩流
写真は,三島駅北口すぐそばの溶岩流です。
約1万4000年前に富士山の噴火により流れ出した溶岩を三島駅周辺で見ることができます。これらの溶岩は,「三島溶岩流」と名付けられています。
三島駅北口では,高さ1m以上の溶岩断面が見られます。三島駅南口前にある楽寿園内では,国の天然記念物に指定されている「縄状溶岩」を見ることができます。
この三島溶岩流の特徴は,流れながら気体成分を発泡し冷え固まったので,きわめてきめの細かい,硬い玄武岩質だそうです。
三島駅周辺の発展とともに,三島溶岩流を観察できる場所が少なくなったので,残された溶岩流の露頭は貴重な存在です。


DDBJ メールマガジン第65号 web 版です。

「第25回 DDBJing 講習会 in 三島」 開催のお知らせ
「第25回 DDBJing 講習会 in 三島」を開催します。

日 時: 2012年1月26日(木)
場 所: 国立遺伝学研究所 生命情報・DDBJ 研究センター 4F
対 象: DDBJ を利用される方をどなたでも歓迎します
参加費: 無料

【 講義内容 】
Next-Generation Sequencer(NGS) 由来のデータ解析(微生物を中心に)やデータ登録について,講義とPC を用いた実習を行います。
・NGS マルチプレックス法による黄色ブドウ球菌de novo アセンブリ
MiGAP ~微生物ゲノム注釈ツール利用法
DBCLS Galaxy: ツール群,日本語統合環境,etc.
DDBJ Sequence Read Archive(DRA) の紹介
Pipeline 基礎(de novo assembly)
・Pipeline 高次部(galaxy: contig annotation workflow)
・Pipeline 高次部(galaxy: 系統樹解析)
・NGS 由来アセンブル配列の登録 ~大量登録システム(MSS)    など

詳細・参加申込みは,こちら をご覧下さい。
DDBJ BioProject サービス提供開始
BioProject は研究プロジェクトとプロジェクトに由来するデータをまとめるためのデータベースです。INSDC が運営するデータベースに登録されたデータが BioProject ID を引用することで,データがプロジェクト単位でグループ化されます。
DDBJ BioProject は登録されたプロジェクトデータに対して国際的に認可されたプレフィックス 'PRJD' で始まるアクセッション番号を発行します。公開されたプロジェクトデータは EBI,NCBI と交換,共有されます。

BioProject データを登録するためには DDBJ 登録管理システム D-way のアカウントが必要になります。D-way 登録アカウントマニュアル に従いアカウントを取得後,D-way ウェブサイトからプロジェクトデータを投稿してください。

DDBJ の塩基配列解析ツールについて(後編)
DDBJ の塩基配列解析ツールについて(後編)
国立遺伝学研究所 大量遺伝情報研究室 長崎英樹


前編 からのつづき

前回DDBJ パイプラインの概要とパイプラインが参照ゲノム配列に対するマッピングまたはde novo アセンブリを行なう基礎処理部とSNP 検出や発現解析等の高度な解析を行う高次処理部で構成されていることについて触れましたが,今回はその内容についてお話しさせていただきます。

1) 基礎処理部
新型シーケンサ配列の研究で一般的に利用されているBWA をはじめとする解析ツールを実装しています(表1)。2011年7月現在で実装している解析ツールの詳細な解説は 「実験医学増刊 Vol.29 No.15 使えるデータベース・ウェブツール (ISBN 978-4-7581-0317-6)」 にまとめてありますので併せてご覧ください。

解析の処理ステップはパイプライン側で設定してあり,マッピングのミスマッチ率設定などのオプションはユーザが画面上で入力します。DDBJ パイプラインの特徴として,DDBJ への配列登録支援機能,マッピング結果等の統計量計算機能,公開されているDRA/ERA/SRA のアクセッション番号を入力すると,DRA のFTP サーバからクエリ配列用に公開配列を取得する配列取得機能があります。

2) 高次処理部
ゲノム配列データ解析用web アプリケーションであるGalaxy のインターフェイスを利用しており,基礎解析部で生成した結果ファイルを基にSNP 検出や発現,クロマチン免疫沈降シーケンス (ChIP-Seq) 解析を行います。また,de novo アセンブリで作成したコンティグ中の遺伝子構造予測にも最近対応させています(図2)。

DDBJ パイプラインには現在,基礎マッピング処理に分散解析サーバ10~33台,高次処理に同3台,基礎アセンブリ処理に250GBメモリの計算機を,クラウド資源として割り当てています。

DDBJ におきましては,新型シーケンサ配列,解析した結果をDDBJ を通して登録,公開していただくことを推奨しております。DDBJ ではオンラインでの登録で使用するツールも準備しており,その解説についてはまたの機会にお話いたします。

種類
ツール名 備考
マッピング BLAT 発現データはイントロンを想定したギャップを考慮したマッピングが可能
MAQ 高速シークエンサ登場初期にショートリードに対応。開発はBWA に引き継がれる
BWA MAQ より速く,より長いリードに対応(Roche 社のTitanium のリードもオプションで対応)
SOAP2 メモリ消費量少なく,より高速。精度はBWA より弱冠落ちる
Bowtie ギャップは考慮しないが処理は速い
TopHat RNA-Seq のリードを内部でBowtie を利用してマッピング。スプライスジャンクションを特定する
Cufflinks マッピングされたRNA-Seq をアセンブルして発現量を正規化
SAMtools 共通フォーマットに変換されたマッピング結果を解析するためのソフトウェアパッケージ
de novo アセンブル SOAPdenovo ヒト,パンダ等大型ゲノムのアセンブルで使用された。メモリ消費は多めだが,高速
ABySS 並列処理に対応したアセンブラ。アセンブルのアルゴリズムは基本的にSOAPdenovo と同じ(de bruijn graph)
Edena 高速シークエンサ登場初期に開発されたアセンブラ
SOLiDTM System de novo Accessory Tools 高速シークエンサSOLiD のデータ解析用パイプライン。アセンブルプログラムVelvetとDNA -アミノ酸配列アライメントプログラムMUMmer を実行する
WEB インターフェイス Galaxy 解析ツール,実行しているジョブを統合管理する。DDBJ パイプラインでは高次解析で使用
表1:DDBJ パイプラインで稼働しているツール



図2:高次処理部 de novo アセンブルによるコンティグ解析画面


筆者が執筆者の一人でもあります 羊土社 から出版の 「使えるデータベース・ウェブツール」 も併せてご覧下さい。 また,2011年6月30日に講師を務めました「第24回 DDBJing 講習会 in 東京」での講義資料 もご参照下さい。

大量データの公開
DDBJ が登録を受付け,2011年10月に DDBJ/EMBL/GenBank 国際塩基配列データベースから公開した大量データは以下の通りです。(getentry から検索可能です)
Sun Yat-sen University (中国) から登録された肝吸虫 (Clonorchis sinensis) 由来の WGS と scaffold CON データが公開されました。

アクセッション番号は以下の通りです。

  WGS:BADR02000001 - BADR02006190 (BADR.gz) ( 6,190 entries)
  scaffold CON:DF142828 - DF145382 ( 2,555 entries)

GIB サービス再開
節電のために停止しておりました,GIB のサービスを10月3日(月)より再開しました。
ユーザのみなさまには,大変長らくお待たせいたしました。
どうぞご利用下さい。

DDBJ アノテータの業務紹介 ~ 6.開発ユニットより
ユーザーの皆様にDDBJ の業務内容を知って頂き,より身近に感じて頂くためにDDBJ アノテータの仕事をリレー連載コラムで紹介します。


開発ユニットより
DDBJ アノテータ 小菅武英(文),真島淳


開発ユニットが置かれた背景

「DDBJ アノテータの業務紹介」 でこれまでに説明されてきたように,アノテータの業務はアノテーション規範にのっとって塩基配列データを査定・更新しデータベースを管理するということに集約されます。 SAKURA 大量登録システム(MSS) から送付されてきたデータは,そのまま何も修正なしでデータベースに登録されるということはありません。登録者が入力した内容をアノテータが必ず確認しています。DDBJ に塩基配列の登録を行った方の大部分は,DDBJ アノテータから質問のメールを受けた経験があるでしょう。
アノテータは登録者から送られたデータを査定してアノテーションの不備や疑問点を見つけ,常に登録者とメールで質疑・応答のやり取りを行っています。日ごろの査定業務の経験から,「もし,登録者から送られてくるアノテーションに間違いが少なければメールのやり取りを減らせて登録完了までの時間を少なくできるのに...」とか,「アノテーションを補助するツールがあれば便利なのに...」,ということを感じていました。たとえば,bacterial 16S rRNA の登録ではrRNA フィーチャー配下に /product="16S ribosomal RNA" を記載するのですが,/product が入力されていない場合や,バクテリアのストレイン(/strain) が入力されていないなどのような例を見かけます。修正を行うため,登録者に質問メールを送付し,登録者からの回答を待って修正を行うことになります。Web からのデータ入力時に必要な項目を提示できればよいのですが,残念ながらSAKURA はそのようなことを示唆できるような仕組みになっていません。間違いを修正するために査定業務に追われる日々が続き,修正量と登録量は減らない,という悪循環に陥っていました。
このような状況を打開するため,アノテータから開発ユニットをくくり出し,塩基配列登録の効率化を目標とした新規開発のための仕事をすることになりました。


新・塩基配列登録システムの開発~SAKURA と大量登録システムの欠点を反面教師に

DDBJ では,塩基配列の登録受付に,SAKURA と大量登録システムを提供しています。SAKURA はインターネットブラウザからデータを入力できるため手軽です。ただし,1件ずつデータ入力を行う構造になっているので,数十件をこえるようなデータを入力するために登録者はかなりの時間を消費することになります。データ査定の経験から,登録件数が増えた場合に登録者がケアレスミスを起こす場合を多く見かけます。
一方,大量登録システムでは多件数の登録が可能であるものの,登録者が塩基配列ファイルとアノテーションファイルを自身で作成し,ftp やメール添付でDDBJ に送付する必要があります。登録者は適切なfeature keys (CDS, rRNA, tRNA, exon など) とqualifiers (/gene, /product, /codon_start, /transl_table など) を自身で記載し,生物情報やアノテーションを入力することになります。したがって,登録者はアノテーションファイルを作成するための知識が必要です。大量登録に慣れている方は良いかもしれませんが,すべての登録者が容易に短時間で登録を行えるような仕組みとはいえません。
そこで,必要な項目を記載漏れすることなく,多件数の塩基配列データを短時間で入力可能にする新・塩基配列登録システム(コード名: D-easy) の開発を始めました。


アノテーションをパターン化して入力時間を短縮

登録者から送られてくる塩基配列データの査定経験からアノテーションをグループ化することができます。たとえば,bacterial 16S rRNA,ITS配列,mitochondrial COI gene,microsatellite 配列などです。DDBJ では代表的な アノテーションの例 を公開していますが,登録時の入力画面で使用すべきfeature keys やqualifier が最初から表示されていればとても便利です。
D-easy にはアノテーションごとにfeature keysとqualifier のセットを提供するための機能(テンプレート選択機能) を装備することにしました。加えて,多件数のデータを一度に入力できるような補助機能 (例えばストレイン名のリストを一度にpasteすることが可能) を加えることを予定しています。


D-easy をちょっと紹介

開発中のD-easy の画面を少しお見せしましょう。
以下は,"bacterial 16S rRNA" を選択したときのアノテーション入力画面です。まだ開発途中ですが,表形式の入力インターフェースになっているのがわかるでしょうか。必須のfeature keyやqualifier (例えば,rRNA,/productなど) が最初から表示されています。/product には16S ribosomal RNA が初めから入力されていたり,rRNA フィーチャーのlocation は自動で入力されるようになります。登録者は、生物名(/organism),ストレイン(/strain),分離源の情報(/isolation_source) などを入力するだけでよいのです。



D-easy 完成版は,来年度中旬ぐらいの公開を目指しています。その前に,特定のユーザー向けにD-easy ベータ版を試用していただくことを考えています。
今年の分子生物学会でD-easy を紹介させていただきます(ポスター発表) ので,興味のある方は是非見に来てください。

(11/11-14) 国立遺伝学研究所の停電による公開サービスの停止
国立遺伝学研究所の停電にともない,以下の日程で DDBJ の全ネットワークサービスを停止いたします。 サービスによって停止期間が異なりますのでご注意下さい。 詳細は以下の通りです。
サービス名 停止期間
DDBJ Read Annotation Pipeline 11月11日(金) 12:00~11月14日(月) 12:00
SAKURA 11月11日(金) 13:00~11月14日(月) 12:00
D-way,DRA,DTA,BioProject,CIBEX,
getentry,ARSA,
BLAST,ClustalW,
TXSearch,ベクタースクリーニングシステム,
GIB,Anonymous-FTP,WABI


11月11日(金) 15:00~11月14日(月) 12:00
DDBJ HP 11月11日(金) 17:00~11月12日(土) 18:00
皆様には大変ご迷惑をお掛けいたしますが,ご理解とご協力をお願いいたします。
全てのサービスが再開しました。ご協力ありがとうございました。(11月14日12時 JST)

この DDBJ メールマガジンは国立遺伝学研究所内の方と,配信を希望される方に送らせて頂きます。
配信申込・中止・変更の方は,「申込・変更」ページをご利用下さい。

発行:日本 DNA データバンク(DDBJ)
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所  DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111

ページの先頭へ戻る