ユーザーの皆様にDDBJ の業務内容を知って頂き,より身近に感じて頂くためにDDBJ アノテータの仕事をリレー連載コラムで紹介します。
開発ユニットより
開発ユニットが置かれた背景
「DDBJ アノテータの業務紹介」 でこれまでに説明されてきたように,アノテータの業務はアノテーション規範にのっとって塩基配列データを査定・更新しデータベースを管理するということに集約されます。 SAKURA や 大量登録システム(MSS) から送付されてきたデータは,そのまま何も修正なしでデータベースに登録されるということはありません。登録者が入力した内容をアノテータが必ず確認しています。DDBJ に塩基配列の登録を行った方の大部分は,DDBJ アノテータから質問のメールを受けた経験があるでしょう。
アノテータは登録者から送られたデータを査定してアノテーションの不備や疑問点を見つけ,常に登録者とメールで質疑・応答のやり取りを行っています。日ごろの査定業務の経験から,「もし,登録者から送られてくるアノテーションに間違いが少なければメールのやり取りを減らせて登録完了までの時間を少なくできるのに...」とか,「アノテーションを補助するツールがあれば便利なのに...」,ということを感じていました。たとえば,bacterial 16S rRNA の登録ではrRNA フィーチャー配下に /product="16S ribosomal RNA" を記載するのですが,/product が入力されていない場合や,バクテリアのストレイン(/strain) が入力されていないなどのような例を見かけます。修正を行うため,登録者に質問メールを送付し,登録者からの回答を待って修正を行うことになります。Web からのデータ入力時に必要な項目を提示できればよいのですが,残念ながらSAKURA はそのようなことを示唆できるような仕組みになっていません。間違いを修正するために査定業務に追われる日々が続き,修正量と登録量は減らない,という悪循環に陥っていました。
このような状況を打開するため,アノテータから開発ユニットをくくり出し,塩基配列登録の効率化を目標とした新規開発のための仕事をすることになりました。
新・塩基配列登録システムの開発~SAKURA と大量登録システムの欠点を反面教師に
DDBJ では,塩基配列の登録受付に,SAKURA と大量登録システムを提供しています。SAKURA はインターネットブラウザからデータを入力できるため手軽です。ただし,1件ずつデータ入力を行う構造になっているので,数十件をこえるようなデータを入力するために登録者はかなりの時間を消費することになります。データ査定の経験から,登録件数が増えた場合に登録者がケアレスミスを起こす場合を多く見かけます。
一方,大量登録システムでは多件数の登録が可能であるものの,登録者が塩基配列ファイルとアノテーションファイルを自身で作成し,ftp やメール添付でDDBJ に送付する必要があります。登録者は適切なfeature keys (CDS, rRNA, tRNA, exon など) とqualifiers (/gene, /product, /codon_start, /transl_table など) を自身で記載し,生物情報やアノテーションを入力することになります。したがって,登録者はアノテーションファイルを作成するための知識が必要です。大量登録に慣れている方は良いかもしれませんが,すべての登録者が容易に短時間で登録を行えるような仕組みとはいえません。
そこで,必要な項目を記載漏れすることなく,多件数の塩基配列データを短時間で入力可能にする新・塩基配列登録システム(コード名: D-easy) の開発を始めました。
アノテーションをパターン化して入力時間を短縮
登録者から送られてくる塩基配列データの査定経験からアノテーションをグループ化することができます。たとえば,bacterial 16S rRNA,ITS配列,mitochondrial COI gene,microsatellite 配列などです。DDBJ では代表的な アノテーションの例 を公開していますが,登録時の入力画面で使用すべきfeature keys やqualifier が最初から表示されていればとても便利です。
D-easy にはアノテーションごとにfeature keysとqualifier のセットを提供するための機能(テンプレート選択機能) を装備することにしました。加えて,多件数のデータを一度に入力できるような補助機能 (例えばストレイン名のリストを一度にpasteすることが可能) を加えることを予定しています。
D-easy をちょっと紹介
開発中のD-easy の画面を少しお見せしましょう。
以下は,"bacterial 16S rRNA" を選択したときのアノテーション入力画面です。まだ開発途中ですが,表形式の入力インターフェースになっているのがわかるでしょうか。必須のfeature keyやqualifier (例えば,rRNA,/productなど) が最初から表示されています。/product には16S ribosomal RNA が初めから入力されていたり,rRNA フィーチャーのlocation は自動で入力されるようになります。登録者は、生物名(/organism),ストレイン(/strain),分離源の情報(/isolation_source) などを入力するだけでよいのです。
D-easy 完成版は,来年度中旬ぐらいの公開を目指しています。その前に,特定のユーザー向けにD-easy ベータ版を試用していただくことを考えています。
今年の分子生物学会でD-easy を紹介させていただきます(ポスター発表) ので,興味のある方は是非見に来てください。

