最終更新日:2017.7.28.

DDBJ アノテータの業務紹介

ユーザーの皆様に DDBJ について業務内容を知って頂きより身近に感じていただけるよう,DDBJ アノテータが DDBJ Mail Magazine にリレー連載したコラムをまとめました。

連載期間:No.55(2010年12月1日発行)〜No.65(2011年10月27日発行)※最新の情報とは内容が異なる場合がありますのでご注意下さい。

  1. Primary Database を維持するということ(前編/後編)
  2. SAKURAでの登録(前編/後編)
  3. 大量登録システム(MSS) の利用(前編/後編)
  4. 更新について(前編/後編)
  5. DDBJ Sequence Read Archive
  6. 開発ユニットより

1.Primary Database を維持するということ(前編/後編)

DDBJ チーフアノテータ 真島 淳

自己紹介みたいなものは興味のある場合だけ, 過去の雑文を読んでいただくことに代えて割愛します。 ただ, 当時と違い今は chief でも, annotator でもないという説もあります。 それでも, 現場ではエラそうに仕切っているという不思議な感じにしています。

今回は リレー連載形式で DDBJ annotator の業務を紹介するという主旨で枠を割いてもらい, その最初を任されました。 どのように書くべきかには迷いましたが, 細かい仕事の実際は他のメンバーに任せて, 古株っぽく理念のようなものについて, 整理してみましょう。 堅苦しくならないように, 書いていきます。

1.DDBJ の抱える primary database 特有の事情

INSDC は primary database を構築している」という主張は GenBank (NCBI) と EMBL-Bank (ENA/EBI) との対話において頻出しますが, 今一つ一般的には浸透していません。 primary database とは, おそらく一般には「個々の研究者が自らデータを登録する仕組みで収集されたデータベース」というようなことを指すと思います。DDBJ におけるデータのサイクルを図に示しています。

workflow-340

insdc_shoukai360_20130520

primary database の場合, そのコンテンツに関する responsibility とか, 文責のようなものは, 本来, 登録した個々の研究者に帰せられるべきです。 よく混同される RefSeq を対照例にします。 RefSeq は NCBI が独自に構築しており secondary database に相当します。 対して DDBJ/EMBL-Bank/GenBank は一般の研究者が決めた塩基配列を受け付ける primary database に相当します。 RefSeq は実は DDBJ/EMBL-Bank/GenBank から引用, 冗長性をなくすような選択, NCBI の staff による記述の見直しと修正などを経て構築されています。この特定 staff が自由に記述を改訂することが可能か否かの点が primary database と secondary database で大きく異なります。 RefSeq の FAQ の項目で説明されていますが, この文脈では GenBank と DDBJ, EMBL-Bank は等価ですので, 読み替えてください。

生命情報の分野には多数のデータベースが存在しますが, その多くは secondary database か, あるいは, 自身のデータを整理するといった対象を限定したデータベースに相当します。 secondary database は書式・判断基準などの制御が容易ですので, 目的に合致した形式で よく整理されていれば, primary database を直接検索するよりも効率が良いケースも多いと思います。 しかし, primary database なしには, secondary database は存在し得ません。

時折, DDBJ にいただく意見に primary database としてのデータベース, または, そのコンテンツの性格をご理解いただいていないと感じることがあります。 例えば, データの間違いを指摘しても直らない, といった批判があります。しかし, そのデータの登録者が不誠実なのか, データベース管理者が登録者に伝えることができないのか, 批判している人物の指摘が妥当ではないのか, 要因別に責任の所在が異なります。 primary database の場合には, データベース管理者の責任とかデータベースの欠点というより, 事業の性格と理解・許容すべき点もあるではないかと思います。 そういえば, DDBJ が primary database である, という根本的な説明を記載する機会にも恵まれていなかったような気がします。

この分野では primary database として成功している実例の1つに wwPDB がありますが, データ量を議論したとき, INSDC に匹敵するものは, まずないと思います。 INSDC のデータは蓄積量も確かに膨大ですし, 日々の処理も それなりに多いのです。更に, もし, 個々の研究者から送られてくるデータを何もせずに置いておけば良いのでしたら運営も非常に楽なのですが, 実際はモロモロの理由から, それでは済みません。 primary database もデータベースですから, データが書式に則っていないと差し障りがあります。

2. DDBJ, すなわち primary database としての INSDCへの登録

ここで やっと annotator の業務の話になるのですが, DDBJ においては「国内外の一般研究者から送られてくる塩基配列とその付帯情報を公開可能な状態に整える作業」であり, これを「査定業務」と称しています。 この定義文のような文章は, 数年前に私が何かの書類提出用に業務を説明するために書きましたが, ほぼ そのまま使われていました。 もっとも DDBJ は, 20 年以上前から primary database を運営してますから, こんな文言が私が書く以前にはなかったことが不思議です。当たり前のように感じている活動の言語化は意外に難しいのかもしれません。 「査定」の英語が annotation で それをする人が annotator です。 ちなみに GenBank では同じような職種を indexer, EMBL-Bank では curator と呼んでいます。 DDBJ における「査定」を総括すると 登録者から送られてくる情報を 1) データベース記載規則に則る形式で 2) 登録者の意図する記載を 3) 正確に反映すること となるでしょうか。しかし, これが意外と難度の高い場面があります。

登録者側では, 面倒な「データベース記載規則」など, 読み下すことは困難でしょうし, 最終記載を意識しながら, データ入力するといった作業は, 結構, 厄介です。 特殊な単語が頻出しますから, スペルチェックも大変です。学名の間違いなども日常茶飯事です。 また, 塩基配列決定が身近になり過ぎたこともあり, 登録をする人が生物学を知らない職種にまで広がり, 記載を読んでも疑問符で, 結局, メールで問い合わせて謎が解けるといったことも多々あります。 クダらないと感じるような修正・訂正から 非常に高度な生物学的過程の記述法に悩むレベルまで, 様々ですが, いつも登録者とメールして解決を図っています。

生命情報分野の大御所の某センセイが, DDBJ は GenBank をミラーしているだけ, という主旨のことを現場も見ずに書いていますが, 実際には結構, いろいろな仕事を annotator も他の職種の人もしています。 ただ, 内部からは逆に, annotator は 細かい修正などせず, もっと登録者の自己責任と割り切って効率化を図れ, とも言われているのです。 primary database も, ある程度は正確さとか, 品質とかを保つ努力は必要でしょうが, バランスの難しいところがあります。

3.需要に応えるために拡張してきた INSDC の歴史

実は, 英語が苦手な私が NCBI や EBI の仕事仲間たちと毎年 meeting して, 英語で discussion し, 比較的頻繁にメールし合うということも思えば不思議な縁です。

一般には, なかなか理解してもらえない feature とか qualifier の拡張・統廃合は, 毎年, 議論されます。 2007 年と少し前になりますが, 過去の象徴的な事例を 拙稿 (署名していませんが): RNA ワールドへの対応にまとめています。 RNA ワールドと言っても化学進化の類の意ではありません。miRNA などに代表されるタンパク質コードの伝令を担わない RNA 産物の記載需要が増えた時期と ncRNA feature 導入についての解説です。 イチイチ署名してませんが, DDBJ のホームページコンテンツには私が書いた文書が多数あります。

上記は書式を時代に合わせる, という1例でしたが, 今度は, 配列決定法の変遷の話題。 EST 受付開始まで行きますと, 少々昔に過ぎて, 私も知らない時代ですが, 当時としては大きな拡張であったろうと思います。 ただ, この時点では DDBJ の中では legacy とか traditional と称している従来の枠組を逸脱する拡張ではありませんでした。 IT 分野の文脈では何故かレガシーに過去の厄介モノの意を含ませる風潮がありますが, 実際の語義は良くも悪くも引き継がれる対象であり, これからも継続すると思います。

この数年で その従来の枠組を逸脱する拡張をしてきました。 2003 年に, ゲノム概要配列の量産の時代に合わせて WGS という枠組を拡張・新設しました。 少し古い記事ですが, WGS のデータ量は新設後, 短期間で飛躍的に増大しました。 2009 年には, いわゆる次世代型とか新世代型などと呼ばれる sequencing platform の普及と配列量産による需要に対応すべく, INSDC に Sequence Read Archive (SRA) が加わりました。 (当時は Short Read Archive と呼ばれていました。) DDBJ も DDBJ Seauence Read Archive (DRA) を新設し対応しています。

時期的には前後しますが, 2003 年から, primary database を逸脱する枠組の拡張が始まりました。 Third Party Annotation (TPA) という別枠で, 配列決定を伴わない配列引用による annotation/assemble/re-assemble の登録を受け付けています。 ただし, データの信頼度を高めるためのハードルとして peer-reviewed な論文公開を伴わないかぎり, データを公開しないという規則の元で運用しています。

生物学, 生命情報科学のコミュニティからの要請・需要の変化に応えるべく, 規則を変化させたり, 枠組を新設したり, いろいろな変化がありましたし, これからも変化することでしょう。 データベースには, システム・ストレージのインフラも大事なのですが, 仕様・枠組に関しても熟考が必要です。 特に, このような「継ぎ足し」のような拡張は通常の保守以上に厄介な局面も多いのです。 現在の課題は, 主に生物多様性研究と個人ゲノム研究の進行に伴うサンプルデータの記述とデータ連携 と感じていますが, それは別の機会に論じてみたいと思います。 ひょっとしたら, この後の回でこの点について何か書く人がいるかもしれません。

4. 登録者とデータベースと利用者を繋ぐ DDBJ の現場

もちろん変わらない基本方針はありますが, 上述のように, 運用と規則は拡張されたり細かい変更を経て現在に至ります。もちろん, 今後も何らかの変化は不断に起こることでしょう。 ルールの変更は登録・更新の現場で annotator の業務自体の変更にあたります。 皆, それぞれに柔軟に時に厳密に対応していることと思います。 多分, この文章を書いている人物の優しい (鬼のような?) 指導の賜物でしょうか?

今後のリレー連載への繋ぎの文章として, 次回以降は, 実際の現場で何が起こっているか, を中心に展開していくことと思います。 多分, 私ではない人が これから書くことですので, 内容は推定です。

1) 欠点はあると思いますが, とにかく利用してくれている研究者は多い SAKURA からの登録がどのように扱われているか? 2) EST, WGS, 全ゲノム規模 などの登録を扱うMass Submission System からの登録受付の実情, 3) それら全てのデータを登録受付後に更新・維持管理をする update 担当 が処理する種々の修正依頼, 4) 配列決定の手法も多様化しつつあり, データ量も増え, 立ち上げから対応に追われている DDBJ Seauence Read Archive (DRA) に関する事情などが予定されています。

また, 機会があれば, annotator とシステム仕様策定とか, 新システム検討の関係について述べることがあるかもしれません。 予定していませんが, 私が再登場する回があるかもしれません。 でも, それはないことを密かに願っています。

2. SAKURA での登録(前編/後編)(SAKURA でのデータ受付は 2012.10.31 で終了しました)

DDBJ アノテータ 筒井 波留

ご存じの方も多いと思いますが,DDBJ への塩基配列の新規登録は,SAKURA,大量登録システム(MSS) により行うことができます。いずれの方法によるデータについても,DDBJ 到着後に公開可能な状態に整え,国際塩基配列データベース(DDBJ/ EMBL-Bank /GenBank) (INSD) で共通のアクセション番号を発行し,即時あるいは将来公開するという流れは同じですが,今回はこのうち,SAKURA による登録についてお話いたします。

1. SAKURA history

SAKURAは,DDBJ が運用している WWW 経由の塩基配列データ登録システムで,運用を開始した1995年は,大きな話題となったあのWindows 95/インターネット・エクスプローラーが世に出た年です。ご記憶にあるかと思いますが,あの時代,まだまだインターネットが今日のように普及してはいませんでしたが,DDBJ ではいちはやくネット社会の到来を見据え,WWW 経由の塩基配列データ登録システムの運用を開始しました。ちなみに,命名は,DDBJ のある遺伝学研究所が桜の名所であることに由来します。

その後,様々な改良を重ね,今日の形で皆さまに利用していただいております。SAKURA では,配列長が20bp 以上500,000bp 以下の,WGS, MGA 以外の塩基配列の登録が可能で,1エントリ(Entry) 毎に塩基配列,その生物学的な機能と特徴(Feature/Qualifier),登録者情報文献情報等 を対話形式で入力し登録します。このため多数エントリ,あるいは生物学的な機能と特徴が多数な,ゲノムデータ等の登録には,あまり向いておりません。そのような登録のために大量登録システム(MSS)を用意しており,これにつきましては,次回以降にご紹介する予定です。

登録をSAKURA とMSS のどちらで行うかは,最終的には登録者のご判断によりますが,データがDDBJ に到着後は,同じ流れ,すなわち,「1.データの査定 → 2.アクセッション番号の発行と通知 → 3.公開または,一定期間非公開」 というもので,私たちアノテータの作業も同じです。

参照: 塩基配列登録の流れ(データ受付からデータベース公開まで)

一度の登録件数が多い場合や多数のFeature を持つ場合(概ね30以上)には,MSS をお勧めしていますが,実際には,SAKURA に慣れた方がテンプレート機能を使い数百件を,また多数のFeature を持つゲノムデータをSAKURA から登録されることもありますので,私たちSAKURA 担当の扱うデータの数,内容も様々です。

2. SAKURA による一次チェック

SAKURA では必要な情報が出来るだけ適切に入力されるように各画面が構成されており,必須入力項目の漏れや,記載形式,明らかな入力内容の不整合等のチェック,いわゆる一次チェックを経たデータがDDBJ に送られます。SAKURA での入力段階で,各画面の説明・注意に従い適切にご登録いただければ,次の査定作業が大幅に軽減され,より迅速なアクセッション番号の通知が可能となります。ご登録時の注意につきましては既報メールマガジンの「ユーザーの皆様へ,お願いです!」 もご覧下さい。

3. 査定 ・二次チェック

SAKURA の一次チェックを経て,DDBJに送られたデータは,祝休日を除き送付翌日にも,私たちアノテーターが査定作業(塩基配列とその付帯情報を公開可能な状態に整える作業)を開始します。一次チェックを経て登録されたとはいえ,しばしばデータには様々な修正を加える必要があり,SAKURA では検知不能なミススペルの修正,入力内容が当該データとして適切かどうか等を1エントリ毎に詳細に査定していきます。

その際,TSUNAMI というアノテーションツールといくつかの補助ツール,内部専用のblast/データベース等を利用しています。TSUNAMI はDDBJ が独自で開発したアノテーションツールで,2001年の導入以来,大小様々な変更を,時代とともに加え現在まで使い続けています。基本的に,1エントリは一人のアノテーターが担当し,連番指定で登録された場合は,その一連の複数エントリは,同じ担当者が査定を行います。同日など,近い時期・短い期間内で同じ登録者から複数回の登録があった場合にも,一人のアノテーターが担当することが多く,できるだけ均一で高品質な内容の構築に努めています。もちろん異なるアノテーターが担当しても,査定結果が一定であるための主な指針として,INSDC で定める基準Feature Table Definition (FT-Doc) とDDBJ の注釈規範があり,これらに従い査定作業が行われます。

4. Feature Table Definition (FT-Doc)

DDBJ に登録されたデータは, 公開と同時にGenBank とEMBL-Bank に送られ,DDBJ が発行したアクセッション番号がGenBank やEMBL-Bank でも共通のものとなります。この毎日のデータ交換を円滑に行いINSD で問題なく公開するために,共通なルールFeature Table Definition(FT-Doc) を定めています。

FT-Doc は国際協力開始当初からのものが,必要に応じて変更され現在に至っていますが,時代の要求等に合わせ,Feature/Qualifier の記載則改定を重ねてきました。日々の登録・更新・公開作業で問題があれば,まずDDBJ 内でアノテーターが検討し,その上で必要な場合は,EMBL-Bank/GenBank と主にメールで協議をしていますが,INSDC で更に検討が必要な問題については,毎年5月に,日本・イギリス・アメリカと開催地を持ち回りで国際実務者会議を行い,そこで直接各バンク代表が顔を会わせて議論し,INSDC としての対応を決定しています。この会議では,時代の要求に合わせたINSD であり続けるために,今まで,Division の新設・廃止,アクセッション番号の桁数の変更,アクセッションprefix の各バンクへの割り当て,次世代シークエンサからの出力データのためのデータベース,Feature/Qualifier の新設・統合・廃止・記載則改定等,大小様々な問題を検討してきました。

このうち,Feature/Qualifier の記載則改定の結果を反映した改定版FT-Doc を毎年公表しています。ここでの決定事項は,査定に直接関係し,私たちの査定作業もこれにより変わります。
最近の例としては,2010年の会議で合意された,トランスポゾン等転移因子の記載方法の変更があります。それまでのrepeat_region Feature での記載から,新設Feature のmobile_element へ変更となりました。
このような改定については,DDBJ HP で広報してはおりますが,全ての登録者に十分認識していただく事はなかなか難しく,改定前の古い記載則に従い登録される事もあり,その場合はご説明して私たちが修正することとなります。当然ながら,FT-Doc 改定に合わせ,SAKURA やTSUNAMI,その他の補助ツールも更新されていきます。

参照: DDBJ/EMBL/GenBank Feature Table Definition 改訂

5. DDBJ の注釈規範

査定のためのもう一つの指針が,DDBJ の注釈規範です。
DDBJ/EMBL-Bank/GenBank は連携しINSD を構築していますが,3極は独立して構築・運営されており各極それぞれの内部規範があります。もちろんそれぞれの内部規範は,INSDC を逸脱するものではなく,その範囲内にありますが,FT-Doc に抵触しない部分は,それぞれの内部規範に基づき各データベースが構築・運営されています。 注釈規範はSAKURA/MSS 担当のアノテーターが協議・作成・改訂してきたもので,常にアノテータ全員で共有し,DDBJ としての統一した査定となるように勤めており,一部はDDBJ HP で公開しています。

参照: DEFINITIONREFERENCE 1REFERENCE 2

6. 査定例

簡単な査定例をご紹介します。SAKURA から以下のようなエントリが登録されました。インフォマティブな内容ではありませんが,SAKURA で一次チェックを経ていますのでシンタックスエラーもありません。しかしながらこのデータには何点か修正を加える必要があります。
column_04

【1】 コンタクトパーソンへの問い合わせ

① ~ ⑤ はFT-Doc. に,⑥ はDDBJ の注釈規範に基づく確認点で,これらについての問い合わせを私たちがコンタクトパーソンにメールで行います。

① /product
相同性検索(内部専用blast)等で確認したところ,Bacillus の16S rRNA の部分配列です。その場合はrRNA Feature に/product=”16S rRNA” を記載します。

参照: 登録の見本

② /molo_type
ゲノムDNA 上のrRNA 遺伝子の配列を決定している場合には,/mol_type は”genomic DNA” を指定します。/mol_type=”rRNA” は,rRNA を直接単離,RT-PCR などでrRNA を標的として増幅し配列決定したなどの場合に指定します。

③ 配列
相同性検索(内部専用blast)によると,配列が逆鎖側です。16S rRNA データの場合には,順鎖の配列を登録します。

参照: BLAST

④ /organism
環境サンプルでない場合,”Bacillus sp.” のように種名が未確定のorganism には,名称を一意に保つことを目的として,下位の rank (/strain, /isolate, /clone, etc) を並記します。

参照: 種が同定されていない場合

⑤ /isolation_source 等
/isolation_source(分離元情報の補足的自由記述),/country(採集地名),/collection_date(採集日)等があればsource に記載します。

参照: Qualifier key の定義

⑥ 登録者
登録者がMishima,H. さん一人です。当該データについて,将来的に連絡が取れなくなることなどを避けるために,実作業者と研究指導者,最低でも2人以上の連名記載を強く推奨しています。

参照: 塩基配列データの登録に必要な情報

【2】 修正作業

回答をもとにTSUNAMI 他で登録作業をすすめます。

column_05

① “Bacillus sp. MH-2011” はtaxonomy database に未登録ですので,登録申請を行います。通常は1~2日で登録されますが,問題があればTaxonomy database 担当からの依頼で,コンタクトーパーソンに再度メールで問い合わせを行います。

参照: Organism qualifier に記載する生物名

配列と/mol_type を修正し,登録者と,/product 等Qualifier を追記し,公開可能な内容(以下)まで修正を加えます。TSUNAMI にはFT-doc,内部注釈規範にもとづくチェック機能があり,これにより私たちは最終的に内容を確認しています。

column_06

② アクセッション番号を発行しコンタクトパーソンに通知します。

③ 即時公開データは公開作業を行い,一定期間非公開指定のデータは登録完了とします。

④ 即時公開データの公開を確認します。

ここまでが,私たちSAKURA 登録担当のアノテータのおおよその仕事です。
今回の査定例は簡単なものですが,実際には対象データは多岐に渡りますので,それぞれのデータを適切に査定するためには,何度も登録者と問い合わせ・確認作業を繰り返すことも多々あります。登録者への問い合わせは,担当アノテータが個別にメールで対応していますが,査定専用のグループメールアドレスを使い,常に情報共有を図っています。

7. 登録の見本

残念ながら現状は,登録データの大多数には何らかの修正の必要があり,多くの場合,登録者への問い合わせも行っています。SAKURA の各入力画面の説明を分かり易く充実させ,皆様により簡易にご登録いただけますように,現在もSAKURA の改良を重ねております。迅速にアクセッション番号をお知らせし,データを公開する事が私たちアノテータの願いです。再度のお願いとなりますが,SAKURA の各入力画面の説明や登録の見本等を十分ご覧いただいた上で,ご登録をお願いいたします。またSAKURA についてお気づきの点などございましたら,是非お知らせ下さい。ご登録をお待ちしております。
お問い合わせ(SAKURA について)

column_07

3.大量登録システム(MSS) の利用(前編/後編)

DDBJ アノテータ 大城戸 利久

初めに

私はまだが勤務する前の時期でしたので,設立に関して詳細はわかりかねますが,DDBJ 内部で保存されている活動の歴史を見ると,1998年10月に大量登録部を開設した,と記録されています。 当時の大きなトピックは,日本の研究機関もメンバーの一員であった国際ヒトゲノムシーケンシングコンソーシアムからヒトゲノム配列データが,大量に産生されている時期でした。INSDC がデータの登録・公開の中心的な機関となり,DDBJ も当然のことながら,その一翼を担うこととなりました。 シーケンシング技術も日進月歩で進み,ゲノムなどの長大な配列,或いは転写物配列の大量登録が予想され,大量登録部設立の動機付けになったのかもしれません。
大量登録部の設置から10余数年,シーケンサを含む解析技術の発展,学術的知見の蓄積など生命科学研究の状況が変化するのに伴い,DDBJ は大量登録システム(MSS) を通じて様々なタイプのデータを受け付けてきました。 その例としてヒトイネカイコメダカ 等の大規模なゲノム配列や,マウスカニクイザルトマト における大量の転写物配列の登録など,日本発,或いは我が国の貢献が大きい国際協調プロジェクトより生み出された配列の登録が挙げられます。
本コラムではMSS における登録・受付の実態を,『登録方法と流れ』と『データ査定』 に分けて紹介します。今月は『登録方法と流れ』 に関連した話しです。

MSS を用いた登録方法

A. MSS への入口

初めて利用される方は登録方法の概略が説明されていますので,「Mass Submission systemとは?」 を訪れて下さい。また,このページから登録の申し込み画面(大量登録システム利用申し込み) に移動できます。申し込みページに移動しますと多数の入力項目が出てきますが,先ずは必須項目に適切な情報を入力して下さい。全ゲノム規模のデータですと,更に複数の入力項目がありますので,可能な限り多くの情報を入力し,申し込みを行って下さい(図1.登録依頼)。
申し込みを受領すると,アノテータが記載内容を読み,査定や受付方針を大まかに推定・判断します。次いでアノテータは,登録の方法やツールの利用案内に関するメールを登録者宛に送信します(図1.返信:仮登録依頼)。登録に必要なドキュメント類,サンプルファイルを一読していただく共に,DDBJ で開発した登録ファイルのチェックツールをダウンロードし,登録ファイルの作成を進めて下さい。

mss-flow-j
図1。大量登録の流れ

B. 登録ファイルの作成 -SAKURA との違い

INSDC は,核酸の塩基配列並びに付随する情報(アノテーション)をエントリとして格納するデータベースです。各々のエントリは,それぞれ複数の要素から構成されており,一定の構造や関係性を有しつつ保存されています。
SAKURA の登録ではWeb 画面を通して,1エントリ毎に「塩基配列」と「アノテーション」 を入力していき,データベースに格納されていきます。
一方,大量登録システムは図1 でも示されている通り,登録者がテキスト形式で登録ファイル(「塩基配列」と「アノテーション」)を作成し,DDBJ に送付していただく方法を採用しています。「塩基配列」 はFASTA 形式ですので,なじみのある方も多いとと思いますが,「アノテーション」 は多少,特殊なフォーマットであると思うかもしれません(図2)。

column_01
図2.アノテーションファイル (例:タンパク質コード領域を含むヒトmRNA配列の登録)

MSS では,登録者から様々な登録データが送られてきますが,登録ファイルの受け付けに関して我々データベース側は,“データベースに投入することが可能なフォーマットを登録者の皆さんに提示し,その形式に基づいて作成されたファイルを使用して登録データを受け付ける” というスタンスに立っています。
現在,DDBJ は登録ファイルの作成ツールを提供しておりませんが,登録ファイルのチェックツールを提供しています。このチェックツールは,ファイルが正しい形式で作成されているか,Feature,Qualifier が適切に使用されているか,などのチェックを行います。また,タンパク質翻訳が行われるCDS フィーチャに対しては,翻訳エラーの有無について調べます。この翻訳チェックツールはconceptual な翻訳のみならず,特殊な翻訳 (リボゾーマルスリッページミトコンドリアゲノムにおけるmRNA へのアデニン付加によるストップコドンの生成 など)に対してもチェック可能ですので,ファイルの送付前にご利用下さい。
ファイルの作成にご苦労をされるかもしれませんが,我々としては登録者の方々にご協力と理解をお願いする次第です。現在稼働中の受付形態をどう改良するのかは,今後の課題です。

C. データの送受方法

登録ファイルの授受には,電子メール或いはFTP を使用します。昨今は,数千件程のEST やGSS,全ゲノム規模データなども圧縮後の登録ファイルを電子メールで送付可能です。しかしながら,受信可能な容量制限を超えたメールが送信されますと,受信側のサーバから送信者宛てに「受信できませんでした」 という旨のメールが返信されます。メールでデータを送付したものの,しばらく(概ね2-3業務日)経過してもDDBJ の担当者から何も返事がない場合には,メールが不達になっている可能性がありますので,大量登録の窓口宛てにご連絡を下さい。
登録件数が数万件以上のような大規模データの場合には,ファイル送付専用のFTP サイトを提供しています。利用を希望される時は大量登録の窓口宛てにご連絡を下さい。

D. 査定手順

詳細は次回以降に説明しますが,ここでは基本的な事柄を紹介します。査定方法は原則的にSAKURA での登録データと変わることはなく,FT-Doc に記載されたルール並びにDDBJ の内部規定による査定方針に従い,データを精査していきます。ファイルのフォーマットチェックを初め,『必要な Feature とQualifier を適切に使用しているか』,『具体的な内容が正確に入力されているか』 の確認後,不適切な入力内容の修正や削除依頼,さらには追加情報の提供・記載等を求めつつ,登録者との間で確認を行いながら進めていきます。

E. アクセッション番号発行・データの公開と非公開

データベースに登録可能なファイルを受領しますとアクセッション番号の発行作業を実施します。アクセッション番号は主に電子メールで登録責任者(コンタクトパーソン)に通知し,一連の登録作業は完了します。
登録者からの要求に従い,即日公開作業を開始する,或いは一定期間データの非公開の処理を行いますが,アクセッション番号発行後のデータの更新や公開依頼は,Update 係で受け付けますので,連絡先をお間違えないようにお願いします(登録データの修正・更新)。

査定の手順

INSDC に登録・公開される塩基配列は貴重な学術的成果ですので,アノテータは可能な限り学術的に正確で,且つ有意なアノテーションの記載を目指しています。

大量登録システム(MSS) での登録において最初のポイントは“仮登録”です(図1.仮登録)。仮登録では,登録データの一部を送っていただき,アノテータが記載内容についてチェックします。基本的なフォーマットエラーのチェックはもちろんですが,送られてきたデータをどのようなカテゴリ,或いはdivision のデータとして登録するのか,どのようなアノテーションを記載するのか方針を検討します。
  ↓
判断する材料の不足や,不明な点が生じると,アノテータは登録者に追加の情報(研究の目的や配列の産生方法など)の提示を求めます(図1.査定作業:仮登録)。仮登録は登録内容の誤りを減らすこと,登録者に適切なアノテーションの記載を理解していただく重要なステップです。
  ↓
方針が決まると,その決定に基づいて登録予定件数分のファイルを作成・送付していただきます(図1.本登録)。
  ↓
アノテータは本登録ファイルを受け取ると登録内容の全体を理解することに努めます。問題点や記載内容の不足があった場合には,対応方針を登録者に説明し,修正を提案します(図1.査定作業:本登録)。
  ↓
査定が完了するとアノテータは,アクセッション番号発行作業に着手します(図1.アクセッション番号)。

以下,データ種別ごとに査定例を紹介します。

A. Single pass sequencing の配列

このタイプに属するデータは,EST (Expressed Sequence Tags),GSS (Genome Survey Sequences) です。
塩基長はそれほど長くはないものの,登録件数が数万以上に達することもあり,MSS で受け付ける代表的なデータの一つです。このデータの配列の読み取り精度は“完成(finished)” ではなく途中段階のデータですので,CDS などの生物学的特徴を記載は不要です。EST とGSS データで要求されるアノテーションはsource feature のみです。しかしながら,両者間で要求される情報は多少,異なります。

GSS は一部の例外を除き,主にゲノムの部分配列です。source feature に記載すべき内容としては,“生物名(organism)”,“クローン名(clone)”,“株名(strain) や個体識別情報(isolate)” など,配列の由来生物に関する情報の入力でほぼ完了です。
一方,EST はタンパク質発現遺伝子,或いは類似遺伝子の転写物配列の一部ですので,source 情報はGSS とは異なり遺伝子発現に関連する情報が要求されます。
即ち,“いつ (dev_stage) ?”,“どの組織/ 器官(tissue_type)・細胞(cell_type, cell_line)?”,“性別 (sex) ?” などの情報で,アノテータはこれらの内容を聞き取ります。シーケンスサンプルの調整方法はどのような状態の遺伝子発現を見ているのかを理解する上で重要ですので,詳しく聞き取り,その内容を正確に反映するように注意を払っています。(カッコ内はqualifier 名)

登録ファイルが揃うと,アクセッション番号発行手続きを始めることを前に言及しましたが,発行作業時に,アノテータはアクセッション番号のprefix の選択を行います。
アクセッション番号に使用されるprefix はINSDC 間で重複しないように一元管理されており,また各々のprefix をどのタイプのデータに使用するか,各データバンクは 必ず他のデータバンクに宣言します。EST,GSS データ用に複数のprefix が割り当てられていますので,アノテータは適切なprefix を選択し,アクセッション番号を発行します。

B. ゲノム規模の登録とアノテーション

ゲノム配列データは非常に大きな情報量を有していますので,査定には労力と時間を要します。登録者が登録ファイルを作成するまでに費やした実験や解析の時間と労力を考えますと,重みのあるデータです。
INSDC では全ゲノム規模の配列は2つのカテゴリで受付をしています。一つは『complete ゲノムとしての登録』,もう一つは『complete に達していない途上過程配列の登録』です。前者は主に通常データとして扱い,後者は”WGS” カテゴリとして受け付けます。

ゲノム規模の登録に当たっては,各々の登録データセットをproject とみなし,IDを割り振ります(Project ID)。このID はINSDC 間で一元的に管理されており,一セットゲノムのデータに対してユニークなID が発行されます。
また,ゲノムエントリの変更の際に,記載されているfeature のtracking を目的とし,遺伝子に関連するfeature には ”locus_tag” を記載します。(/locus_tag qualifier の記載法)
locus_tag の記載には特定のprefix が割り当てられます。このprefix はproject ID との間で一意に関係性が保たれています(図3)。

Project ID とlocus_tag prefix の申請の大部分をアノテータが登録者の代理で行います。登録者情報に加え,配列の由来source の名称やゲノムの特徴(推定長,レプリコンの数など),シーケンシング実験に関する内容を提供してもらい,その内容を添えて申請します。

column_02
図3. locus_tag prefix の管理データベース

C. Complete ゲノム

配列の読み取りがFinishing と判断されるデータですので,生物学的特徴の記載が必須となります。
原核生物といえどもcomplete ゲノムとなると,塩基長は数百万 bp に達し,そこに記載されるfeature 数は4-5,000超になります。真核生物は原核生物よりもさらに複雑になります。例えば染色体数分までにまとめ上げた配列だと,その分だけのエントリ(エントリ多くても数十本)の登録で済みますが,そこまで配列が組み上げられていない下位のcontig 配列のみであると,登録数は数百件以上にもなります。また塩基長は千万から十億bp の単位になり,記載されるfeature 数も何万にもなります。例としてイネゲノムでは,配列長が3.82億bp,で,記載される総feature 数は約40万(CDS は28,000余個)になります。

Complete ゲノム配列の査定は,使用されているfeature(指定領域も含む)の妥当性,遺伝子産物名のチェックを中心に行います。
原核生物のゲノムの場合,RBS feature を例にします。RBS の特徴を考えると,その下流にCDS の存在が予想されます。ところが稀に,RBS だけのみ記載されて,その下流に適切なCDS が存在しないことあります。その時には登録者にRBS feature の記載が妥当であるか確認を要請します。
真核生物の場合では,大多数のタンパク質コード遺伝子はintron によって分断されていますので,CDS の指定領域におけるGT-AG 則の妥当性も検証の対象となります。
全てのfeature の記載内容が妥当であるかどうか,アノテータが十分に確認することは容易ではありませんが,可能な限り記載内容を注意深く検証していきます。

D. WGS (Whole Genome Shotgun)

このカテゴリのデータはfinishing に近い完成度の高いデータからcontig の整列が不十分な低いものまで様々です。finishing まで完成させることが容易ではないことや次世代型シーケンサー(NGS) の普及も進んだこともあり,近年,このカテゴリのデータ登録が増えています。

配列の査定で注意する点は,シーケンシングギャップを表す連続した”n” が含まれていないかどうかや,配列長が極端に短いエントリの存在についてです。 アノテーションの査定では,途上データであることから,CDS などのsource 以外のfeature の付加を義務付けていませんが,付与することを禁止していません。記載方法はcomplete ゲノム配列とほとんど変わらない内容です。
また,WGS データはシーケンシングギャップ個所にgap feature を用いてより高次な配列(super-contig,chromosome) などに組み上げたエントリの登録に引用配列(ピースエントリ)としても使用されます。これら高次の配列はCON エントリとして登録されます(図4)。 多少複雑な登録手順ですが,登録者が順序立てて登録を進められるように,アノテータは誘導していきます。

column_03.
図4.次世代型シーケンサー(NGS)より読み取られた全ゲノム規模配列の登録概要の例
   (WGS とCON division エントリの構築)

最後に

ここでは紙面の都合上,他のデータについては割愛していますが,基本的にMSS での登録受付ではデータの大小に関わらず入力されている内容を,コンピューターツールの併用と共に,目視を主な方法として確認を行います。MSS で扱うデータは規模が大きくなりますので,手間がかかりますが,少しでも早く正確に査定を行うことに努めると同時に,登録者への負担軽減も意識しています。

大規模データの登録をお考えの方はMSS のご利用をお勧めしていますので,ご連絡をお待ちしております。

4.更新について(前編/後編)

DDBJ アノテータ 坂井勝呂,杉田里江,三村公子

4回にわたり,SAKURA および大量登録システム(MSS) を利用した登録法について,説明して参りましたが,本コラムでは,登録作業が完了した(=アクセッション番号が発行された)後の登録情報の更新について,2回にわたり説明します。今回はその前編です。

1. 総論

登録時には,誤りの無いよう,また将来の公開時のことを考慮して過不足なく情報を登録されることと思います。しかし,登録時には未確定で不明であった情報が,暫くたって情報が確定した,登録情報を見直していたら間違いがあった,塩基配列をより長い配列に変更したい等の種々の理由で更新を希望されることもあるかと思います。そのような依頼を受けるのが,更新を担当するアノテータです。

一般的な更新作業は,登録者からの依頼を受け,担当のアノテータが依頼の内容を踏まえ,データベースの登録情報を書き換え,対象エントリの再公開作業等を行い,登録者へ作業完了の報告をする,という流れで行います。

SAKURA または大量登録システム(MSS) のいずれの方法でDDBJ に登録されたとしても,更新の窓口は一つで,更新係宛てへの連絡で依頼を受け付けています。登録時はWEB ベースの登録システムのSAKURA で配列情報を入力可能ですが,更新の場合,そのような入力システムはありませんので,必ず,ご希望の更新内容をメール,または"DDBJ へのお問い合わせ" から更新係宛てへお送り頂くことになります。なお,登録時に非公開の指定を頂いたデータについては,非公開の間はWEB での閲覧は出来ませんので,メールで依頼を頂ければ,公開時のフラットファイル の形式でお送りしています。また,登録内容の更新は,塩基配列の公開前または後のいずれであっても随時可能です。注意頂きたいのですが,DDBJ では,公開されたエントリの更新の場合,即日再公開作業を行います。従って,登録時のように,更新された内容を一定期間非公開にする,という設定が出来ません。詳細は,”FAQ ” のこちら をご参照下さい。

依頼を受け取った更新担当のアノテータは,登録者の指示に従い,提供された情報をもとに,DDBJ に登録頂いた情報を更新します。EMBL-Bank またはGenBank に登録された配列情報につきましては,登録を担当したデータベースが,公開日の設定等も含めすべての情報に関する更新を担当しますので,それぞれの更新担当部署に連絡をお願いします。

更新担当のアノテータの行う査定の基準・手順は,SAKURA および大量登録システム(MSS) で登録頂いた場合と同様で,Feature Table Definition(FT-Doc) に記載の規則およびDDBJの運用規定に照らし合わせ,更新の依頼内容が適切か否か,情報は正確か,使用されるFeature およびQualifier ,ならびにその値の妥当性を,送付された情報から検証・確認し,必要な場合,登録者に確認を求めながら,TSUNAMI 等のデータベース編集ツールを用いて更新作業を進めます。個々の各論については,後述します。

このような一般的な更新作業とは別に,DDBJ の判断で登録内容を更新する場合があります。例えば,FT-DOC の改定による更新です。登録査定の際に参照するFT-DOC は,DDBJ/EMBL-Bank/GenBank の三極の協議の結果,改定を毎年行っています。その結果,過去の登録情報の記載において,最新のFT-DOC の規則と齟齬が生じた場合,更新担当のアノテータはデータベースの内容を書き換え,最新のFT-DOC の規則と合致するように更新します。このような場合の至近の例としては,転移因子(transposable element) の記載のために,昨年の会議で導入が決定されたmobile_element Feature が,既存のrepeat_region Feature から更新された事例があります。また,他の例としては,配列由来種の学名の変更があります。DDBJ/EMBL-Bank/GenBank の三極に登録された塩基配列の由来生物種の学名は,三極が共同で構築しているtaxonomy database で管理していますが,種々の理由から,学名が変更されたり,複数の学名がマージされたりすることがあります。そのような場合,DDBJ でも変更のあった生物名を有するエントリについて,配列由来種の学名を更新し,最新のtaxonomy database の内容と矛盾の無いように致します。いずれの更新の場合でも,ホームページ,メール等で登録者,利用者の皆様に適時報告し,確認をお願いしています。

総論が長くなりましたが,更新を担当するアノテータ宛てによく依頼される更新の内容を,以下の各論で作業の留意点を中心にまとめてみました。

2. 各論

各論の章立ては以下を予定しています:

  1. 文献情報の更新・公開
  2. コンタクトパーソン・登録者情報の更新
  3. 公開予定日の変更 (後編)
  4. データの登録抹消(公開データの利用制限処理)
  5. 塩基配列の更新
  6. 生物名の更新
  7. その他

A. 文献情報の更新・公開

論文の受理・公開による更新が殆どで,データ登録時に入力されたREFERENCE 情報のタイトル,著者名,雑誌名などを修正致します(DDBJ フォーマットのフラットファイル では,REFERENCE 2 以降のREFERENCE に該当する情報の修正です)。
更新係まで連絡を頂きたい内容としては,以下のリンク先を参照下さい。

参照:論文が受理されました論文が公開されました

なお,論文の別刷りは,論文がインターネットなどで閲覧出来ない場合,または,作業上,必要な場合にのみDDBJ から登録者に送付をお願いしていますが,多くの場合,メールで連絡頂いた情報のみで作業を行っています。

[FAQ] 別刷りを送る必要はありますか

登録者の方より,論文に関する情報を適時メールで連絡頂くことを期待していますが,論文公開により配列データの公開依頼が,NCBI またはデータベース利用者などよりDDBJ 宛に寄せられることもあり,登録者からの依頼でなくても,アクセッション番号の公知が確認された場合は,文献情報を更新の上,公開作業を行なわせて頂く場合もありますので,ご了承下さい。

参照:データ公開原則

また,論文に使用されなかったアクセッション番号のデータも,関係配列として文献情報の更新・公開を行わせて頂く事も可能です。希望の場合,お知らせ下さい。

なお,DDBJ では,雑誌名に関する情報は,Journals in NCBI Databases の情報を参照して,更新作業を行っています。例えば,フラットファイルに表示される雑誌名の略称は,ISO (International Organization for Standardization) abbreviation を参照し,記載しています。しかし,ISO abbreviation の規定されない和雑誌などで英名がない場合,省略せず,そのまま記載することもあります。

希望される雑誌名での表示ができない場合もありますが,相談させて頂く事も可能ですので,お知らせ下さい。

コンタクトパーソン・登録者情報の更新

コンタクトパーソンの所属の変更またはコンタクトパーソンの変更による所属先情報および連絡先情報(E-mail,Phone およびFax)の更新を行ないます。更新された所属先情報は,DDBJ フォーマットのフラットファイルREFERENCE1 上に反映されます。

所属先変更の際,フラットファイルの所属先情報に,新しい所属を記載せず,データ登録時の配列決定を行った旧所属先情報を,引き続き所属先情報として記載したい旨,希望される方もいます。旧所属先をフラットファイルに所属先情報として,所属先変更後も引き続き,記載・公開する事は可能ですが,DDBJ から問合せ・連絡を行なう際に使用する連絡先情報につきましては,連絡可能な情報への変更を必ずお願いしています。

なお,連絡先情報のE-mail,Phone およびFax の3項目につきましては,フラットファイルには希望が無い限り記載いたしません。

参照:コンタクトパーソン情報, 住所, 所属情報を変更したいDDBJ フラットファイルフォーマット改訂

公開予定日の変更

登録時に一定期間非公開を希望した登録の場合,登録時に設定した公開予定日を修正します。新しい公開予定日を指定頂く際,必ず,対象のアクセッション番号をすべて記載し,日付も,半年後,4月頃,または投稿中の論文が受理されるまでといった曖昧な指定ではなく具体的な日付 (例: 2013/06/25)をもって,指定頂いています。もし,公開予定日の日付を特定出来ないと担当アノテータが判断する場合,必ず,登録者に確認を求めています。また,延長される期間について,特に規定はありませんが,多くの登録者の方が5年以内の日付を指定しています。また,変更といっても,延長だけでなく,公開予定日を指定した前倒し公開,即日公開も可能です。しかし,データベース上での公開は,処理状況などにもよりますが,公開作業の開始の翌日以降となりますので,ご了承下さい。

また,DDBJ から公開予定日前に公開予定日到来の案内メールを送信しておりますが,あくまでお知らせとして送信しております。メールトラブルなどにより,正しく送受信されないケースもありますので,登録データの公開予定日につきましては,登録者ご自身で責任をもって管理頂きますようお願いします。

参照:公開予定日を延期したい

非公開データの登録抹消・公開データの利用制限処理

DDBJ に登録した非公開データを登録抹消,または既に公開されているデータに対して利用制限処理を行います。しかし,DDBJ/EMBL-Bank/GenBank で構成する国際塩基配列データベース(INSD,International Nucleotide Sequence Database) の諮問機関である国際諮問委員会において,明文化された方針(登録データの取り扱いについて を参照のこと)の理念に基づき,登録されたデータについて,その抹消・利用制限処理を安易にお受けする事は出来ないと考えています。

従って,抹消・利用制限処理の依頼を登録者より受けたとき,登録内容を更新することによって,抹消・利用制限処理の依頼に至った理由を克服出来ないか確認し,一定の条件下でのみ,依頼を受け付けています。詳細は,以下のリンク先をご参照下さい:

参照:公開されたデータを非公開に戻したいDDBJ に登録したデータを抹消したい

なお,一度データベース上に公開されたデータにつきましては,通常検索サービスから削除する事は可能ですが,getentry (DDBJ における主検索ツール)で,アクセッション番号で検索した場合,永久に閲覧可能な状態であり,EMBL-Bank,GenBank でも主検索ツールにおいては同様な対応となりますこと,また,公開されたデータを取得した不特定多数の第三者データベースにおいては削除されるとは限らない点をご理解お願いします。

塩基配列の更新

塩基配列の更新は,更新後の塩基配列の全長(更新される部分だけでなく)をFASTA 形式で,メールに記載して(または添付ファイルで)送付頂くようお願いしています。 配列と同時に送付頂きたい情報は,以下のリンク先をご参照下さい:

参照:配列を更新したい

特に,配列の更新によって,Feature のlocation の更新もある場合,必ず,更新後のlocation もお知らせ下さい。

また,更新対象アクセッション番号が複数になる場合は,リダイレクション(< )のあとにスペースなしでアクセッション番号を記載したMulti-FASTA 形式が可能です。 公開されているデータの配列を更新しますと,データは即日公開されます。その場合,アクセッション番号に変更はありませんが,フラットファイルでversion 番号が一つ上がります(例:AB000001.1→AB000001.2)。また,CDS のアミノ酸配列も更新された場合,protein_id のversion 番号が上がります(例:BAA12345.1→ BAA12345.2)。また,CDS の更新をともなう配列の更新に際しては,適切にprotein_id が継承されていくこと(例のように,更新対象のエントリのCDS のprotein_id が,version 番号が”1” から”2” に上がっても,BAA12345 の部分が,更新前後で変更が無いこと)は,データベース側と利用者にとって有用な情報となります。継承の可否は,核酸配列,またはアミノ酸配列の相同性を基準とし,当該CDS の下位にあるqualifier(/gene,/product,/note など)のvalue を考慮して,担当のアノテータが判断する場合もありますが,登録者に継承の判断をお願いする場合もあります。継承が不適と判断された場合は,再公開時に新規にprotein_id が発行されます(例えば,更新前はBAA12345.1 だったものが,BAK40000.1 に変更)。

なお,protein_id は,翻訳されるCDS Feature に対してデータ公開時に発行されます。従って,データを非公開で登録された場合,データが公開されるまで,protein_id は発行されません。また,アクセッション番号のように,DDBJ からメール等でprotein_id をお知らせすることもありませんので,登録者ご自身で,データ公開後,確認頂くことになります。

生物名の更新

原則的に,他の登録情報と同様に,登録後,塩基配列の得られた配列種の生物名を,更新することが随時可能です。更新後の生物名がtaxonomy database に登録されていない生物名の場合は,アップデート係からtaxonomy database に生物名の申請登録を行います。また,登録時は,種名が未確定で,"<属名> sp. " などのような"tentative name" で登録されたが,その後,種が同定された場合なども,taxonomy database に,登録された"tentative name" の更新を依頼します。しかし,更新後の生物名が新種の場合,提唱する新種の学名に関する文献が公表されていることが必須ですので,新種に関する論文が公開されていない段階(たとえ,論文が受理されていても)では,生物名の更新は出来ず,論文が公開後(オンラインでも可),改めて,生物名の更新を依頼頂くことになります。

なお,前編でも説明致しましたが,taxonomy database の学名が種々の理由で更新された場合,DDBJ でも変更のあった生物名を有するエントリについて,その生物名の更新作業を行います。登録者には,変更があった旨,メール等で連絡していますが,変更について,問題等がありましたら,アップデート係までお知らせ下さい。アップデート係では,登録者から送られた分類学上の意見およびその典拠となる論文等をtaxonomy database に転送することが可能です。しかし,taxonomy database は,分類学上の権威ではなく,生物名の表記を統一的に管理することに主眼をおいて構築されていますので,分類学的に普及している内容および登録者の分類学的な主張とは相容れない場合もあることをご理解下さい。

参照:Organism qualifier に記載する生物名

その他

遺伝子名 (gene qualifier またはproduct qualifier の値に相当)を含む,DDBJ に登録されたFeature/qualifier の登録情報を更新することができます。査定方針は登録時と同じで,FT-Doc およびDDBJ の注釈規範に照らしあわせ,査定を行っています。変更箇所が多数であるとか,複雑多岐にわたるためメールで一つ一つ記載することが煩わしい,ということがあるかと思いますが,そのような場合は,事前に,アップデート係までメールで,希望する更新の概要をお知らせ下さい(例えば,対象アクセッション番号,変更希望のFeature/qualifier 名等)。送付された概要をふまえ,依頼者の負担軽減を図れるよう検討します。場合によっては,アノテーションファイルの再作成等のかたちで更新の依頼をお願いする場合もあります。アノテーションファイルについては,大量登録システム(MSS) の利用 をご参照下さい。

2回にわたり更新について,説明して参りましたが,更新の依頼で,不明な点があれば,お問い合わせ より「塩基配列データの更新・修正」までご連絡頂きますようお願いします。

5.DDBJ Sequence Read Archive

DDBJ アノテータ 児玉悠一(文),野崎亜沙美

ややこしいがDDBJ という単語には二つの使われ方がある。一つは今までのコラムで紹介されてきた小さい意味のDDBJ。DDBJ/EMBL-Bank/GenBank のDDBJ でアノテーション付き塩基配列データを収集しているデータベースのこと。もう一つは大きい意味のDDBJ。DDBJ/EBI/NCBI のDDBJ でデータベースの運営母体のこと。まずはこの違いをはっきりさせておこう。もっとも大DDBJ と言ってもEBI/NCBI と比べて予算も人員もとても少ない。
このコラムで紹介する DDBJ Sequence Read Archive は大DDBJ を構成する公共データベースのうちの一つだ。

column_08

DRA は「次世代シークエンサからの生っぽいデータを集めて提供している公共データベース」。

次世代?

次世代シークエンサだがそもそも次世代ではない。現在続々とデータを生み出している。正確には「新世代」の方がいいのだろう。じゃあ,今の次世代は?実際,過去に次々世代とか第3世代とか言われていた1分子シークエンサとか半導体シークエンサのデータもすでに入っている。だからより正確には「新世代以降シークエンサからの」になる。

生っぽい?

本当の生データは画像だが,これをアーカイブしていたらとっくに音をあげていただろう。基本的には画像処理とベースコールされた後の配列とクォリティデータを集めている。リシークエンスの場合はアライメントデータの方が何かと都合がいいので最近はアライメントデータの受付けも始めた。
まとめるとDRA は「新世代以降シークエンサからの生っぽいデータを集めて提供している公共データベース」となる。

データは「メタデータ」と「シークエンスデータ」の二種類がある。シークエンスデータは塩基配列とクォリティデータを含んでいる。メタデータはシークエンスデータがどうやって得られたのか書いてある説明書。こういう研究目的で,こうやってサンプルをつくって,こういう実験をして,このシークエンサでランして,といったことが書いてある。他の研究者がみて理解できる程度に書いてあることが大切だ。DRA ではシークエンスデータの塊にメタデータという説明書がペタっと貼ってある。DRA のメタデータはEBI/NCBI と同じで,アクセッション番号も共有している。

シークエンスデータはでてきたファイルそのものだからいいとしても,メタデータはちょっとややこしい。
まず,DRA のメタデータはStudy,Sample,Experiment,Run,Analysis,Submission の6種類がある。さらにこれらのオブジェクトは 階層構造をつくっている。これがDRA メタデータの最大のミソであり,同時にとっつきにくいところ。階層構造のおかげでRun を追加したりSample を使い回したりといったことが柔軟にできるが,オブジェクトをウロウロしないと全体像が分からないのもまた事実。

登録ではメタデータをつくることが中心になる。DRA で提供しているMetadefine というメタデータ作成ツールの画面に内容を入力していくだけなのだが,正直最初はつまずきやすい。まずは 項目の説明 をざっとご覧いただきたい。似たような データを探し出してきて 真似るのも一つの手。一回慣れると次からはぐっと楽になります。

大DDBJ/EBI/NCBI がやっているSRA ってなんの役に立っているの?
国際的な超大型プロジェクト(例 Human Microbiome Project1000 Genomes )は「でてくる生データは人類の共有財産だから速やかに公開されるべし」としている。だから,生データはすぐにSRA を通して世の中に公開され,世界中の研究者が利用できるようになっている。他にも個人レベルの情報を扱っている dbGaPEGA と連携して,個人情報を含むデータはdbGaP とEGA,含まないデータはSRA,という役割分担をしている。このシステムは病気の研究等を強力にサポートしている。
今やSRA は超大量データの共有基盤としてなくてはならない存在なのです。

生データの登録を要求するジャーナルが増えているので,是非余裕をもって登録を。

そもそもDDBJ って何?という方は → こちら 「日刊工業新聞 2011.2.21.掲載 『キラリ研究開発』」

6.開発ユニットより

DDBJ アノテータ 小菅武英(文),真島淳

開発ユニットが置かれた背景

「DDBJ アノテータの業務紹介」 でこれまでに説明されてきたように,アノテータの業務はアノテーション規範にのっとって塩基配列データを査定・更新しデータベースを管理するということに集約されます。 SAKURA 大量登録システム(MSS) から送付されてきたデータは,そのまま何も修正なしでデータベースに登録されるということはありません。登録者が入力した内容をアノテータが必ず確認しています。DDBJ に塩基配列の登録を行った方の大部分は,DDBJ アノテータから質問のメールを受けた経験があるでしょう。
アノテータは登録者から送られたデータを査定してアノテーションの不備や疑問点を見つけ,常に登録者とメールで質疑・応答のやり取りを行っています。日ごろの査定業務の経験から,「もし,登録者から送られてくるアノテーションに間違いが少なければメールのやり取りを減らせて登録完了までの時間を少なくできるのに...」とか,「アノテーションを補助するツールがあれば便利なのに...」,ということを感じていました。たとえば,bacterial 16S rRNA の登録ではrRNA フィーチャー配下に /product="16S ribosomal RNA" を記載するのですが,/product が入力されていない場合や,バクテリアのストレイン(/strain) が入力されていないなどのような例を見かけます。修正を行うため,登録者に質問メールを送付し,登録者からの回答を待って修正を行うことになります。Web からのデータ入力時に必要な項目を提示できればよいのですが,残念ながらSAKURA はそのようなことを示唆できるような仕組みになっていません。間違いを修正するために査定業務に追われる日々が続き,修正量と登録量は減らない,という悪循環に陥っていました。
このような状況を打開するため,アノテータから開発ユニットをくくり出し,塩基配列登録の効率化を目標とした新規開発のための仕事をすることになりました。

新・塩基配列登録システムの開発~SAKURA と大量登録システムの欠点を反面教師に

DDBJ では,塩基配列の登録受付に,SAKURA と大量登録システムを提供しています。SAKURA はインターネットブラウザからデータを入力できるため手軽です。ただし,1件ずつデータ入力を行う構造になっているので,数十件をこえるようなデータを入力するために登録者はかなりの時間を消費することになります。データ査定の経験から,登録件数が増えた場合に登録者がケアレスミスを起こす場合を多く見かけます。
一方,大量登録システムでは多件数の登録が可能であるものの,登録者が塩基配列ファイルとアノテーションファイルを自身で作成し,ftp やメール添付でDDBJ に送付する必要があります。登録者は適切なfeature keys (CDS, rRNA, tRNA, exon など) とqualifiers (/gene, /product, /codon_start, /transl_table など) を自身で記載し,生物情報やアノテーションを入力することになります。したがって,登録者はアノテーションファイルを作成するための知識が必要です。大量登録に慣れている方は良いかもしれませんが,すべての登録者が容易に短時間で登録を行えるような仕組みとはいえません。
そこで,必要な項目を記載漏れすることなく,多件数の塩基配列データを短時間で入力可能にする新・塩基配列登録システム(コード名: D-easy) の開発を始めました。

アノテーションをパターン化して入力時間を短縮

登録者から送られてくる塩基配列データの査定経験からアノテーションをグループ化することができます。たとえば,bacterial 16S rRNA,ITS配列,mitochondrial COI gene,microsatellite 配列などです。DDBJ では代表的な アノテーションの例 を公開していますが,登録時の入力画面で使用すべきfeature keys やqualifier が最初から表示されていればとても便利です。
D-easy にはアノテーションごとにfeature keysとqualifier のセットを提供するための機能(テンプレート選択機能) を装備することにしました。加えて,多件数のデータを一度に入力できるような補助機能 (例えばストレイン名のリストを一度にpasteすることが可能) を加えることを予定しています。

D-easy をちょっと紹介

開発中のD-easy の画面を少しお見せしましょう。
以下は,"bacterial 16S rRNA" を選択したときのアノテーション入力画面です。まだ開発途中ですが,表形式の入力インターフェースになっているのがわかるでしょうか。必須のfeature keyやqualifier (例えば,rRNA,/productなど) が最初から表示されています。/product には16S ribosomal RNA が初めから入力されていたり,rRNA フィーチャーのlocation は自動で入力されるようになります。登録者は、生物名(/organism),ストレイン(/strain),分離源の情報(/isolation_source) などを入力するだけでよいのです。

D-easy 完成版は,来年度中旬ぐらいの公開を目指しています。その前に,特定のユーザー向けにD-easy ベータ版を試用していただくことを考えています。
今年の分子生物学会でD-easy を紹介させていただきます(ポスター発表) ので,興味のある方は是非見に来てください。

ページの先頭へ戻る