HOME > レポート・統計 > メルマガ
DDBJ メールマガジン
No. 55   2010年12月1日発行
apply 申込・変更    top 最新号 top    backnumber 過去の号    ddbj 発行:DDBJ
狩野川のシカ
shika

三島と沼津の境には,天城山系から海に流れる自然豊かな狩野川があります。 昔,大きな水害があったため堤防がしっかりと造られていて人々の散歩コースになっています。 その河原のやぶでは色々な動物を見ることができます。 たぬき,雉,コジュケイ,河岸ではカルガモの親子づれ,コサギ,カワウ等々。 早朝,すずめ達が木々の中で鳴き交わし,集団で飛び立つ様は賑やかで元気を貰います。 空中では,小さな身体のチョウゲンボウと大きなカラスのバトルも見られます。頑張れチョウゲンボウ!
そこで最近,シカの群が見られるようになりました。 かわいい子供,大きな立派な角の雄,どこからこんな所にやってくるのか,何を食べているのか,これからどうなってしまうのか,複雑な心境です。

DDBJ メールマガジン第55号 web 版です。 メールマガジンに関するご意見やご質問がありましたら ddbjmag@ddbj.nig.ac.jp までお願いします。

「DDBJing 講習会(23) & PDBj 講習会 in 長浜」 開催

2011年1月17-18日,「DDBJing 講習会(23) & PDBj 講習会 in 長浜」を 長浜バイオ大学 にて開催します。

  日 時: 2011年1月17日(月)- 1月18日(火) 10:30〜16:30 (受付は,10:00より)
  場 所: 長浜バイオ大学 (会場アクセス
  主 催: DDBJ,PDBj,長浜バイオ大学
  対 象: DDBJ,PDBj を利用される方をどなたでも歓迎です(定員40名)
  参加費: 無料

  講習内容:

       1日目 ・PDBj と wwPDB
         ・構造からの機能予測法入門
         ・(実習 1)PDBj Mine の使い方
         ・(実習 2)複雑な構造(電子顕微鏡構造・複合体構造)の見方
       2日目 ・DDBJ の紹介と大量配列のためのクラウド型計算機資源利用法
         ・次世代シークエンサ(NGS)概論とクラウド型解析ツール DDBJ Pipeline
         ・NGS 登録データベース DDBJ Sequence Read Archive
         ・NGS クラウド型解析パイプライン実習
         ・SAKURA を用いた塩基配列登録の方法・実習


2010年12月6日(月)より申込み受付開始です。
詳細は,こちら をご覧下さい。

国立遺伝学研究所の停電による公開サービスの停止

国立遺伝学研究所の停電にともない,以下の日程で DDBJ の全ネットワークサービスならびに大型計算機(supernig)のサービスを停止いたします。 サービスによって停止期間が異なりますのでご注意下さい。詳細は以下の通りです。

サービス名 停止期間
SAKURA 12月17日(金) 13:00 〜 12月20日(月) 12:00
getentry,ARSA,
BLAST,ClustalW,
TXSearch,ベクタースクリーニングシステム,
GIB,Anonymous-FTP
12月17日(金) 15:00 〜 12月20日(月) 12:00
大型計算機(supernig) 12月17日(金) 15:00 〜 12月20日(月) 9:00
DDBJ HP 12月17日(金) 17:00 〜 12月19日(日) 18:00

皆様には大変ご迷惑をお掛けいたしますが,ご理解とご協力をお願いいたします。

DDBJ 年末年始休業のお知らせ

DDBJ では,国際塩基配列データベースの構築業務を 2010年12月29日(水) から 2011年1月3日(月) まで休業いたします。
これにともない,SAKURA によるデータ受け付けは 2010年12月27日(月) から 2011年1月4日(火) までご利用頂けません。 エントリの新規および再公開も,2010年12月27日 から 2011年1月4日 まで行なわれません。 ただし,データ検索や ftp は休業期間でも利用可能です。

       休業期間 : 2010年12月29日(水) 〜 2011年1月3日(月)
       SAKURA 停止 : 2010年12月27日(月)17:00 〜 2011年1月4日(火)10:00
       新規・再公開停止 : 2010年12月27日(月) 〜 2011年1月4日(火)

皆様のご理解とご協力をお願いいたします。よい年をお迎え下さい。

DDBJ Sequence Read Archive より検索システムをリリース

DDBJ Sequence Read Archive検索システム (ベータ版) をリリースいたしました。
DDBJ/EBI/NCBI Sequence Read Archive から公開されている全てのデータを対象に,アクセッション番号,生物名,登録した組織名,シークエンサの種類や研究カテゴリーでの検索ができます。 現在,キーワード検索機能を実装中です。検索でヒットしたデータのメタデータを XML ファイルで,シークエンシングデータを fastq ファイルで FTP ダウンロードすることができます。 是非,ご利用下さい。フィードバックをお待ちしております。 DDBJ/EMBL-Bank/GenBank データの検索には getentryARSA をご利用下さい。

DDBJ Sequence Read Archive は,次世代シークエンサからの1次データのためのアーカイブです。

RefSeq の BLAST Web API の公開

高速 BLAST の API の参照データベースとして,DDBJ に加えて以下の RefSeq データベースを追加しました。

この他にも,従来の BLAST API の参照データベースとして,Reference proteins (サンプルプログラム) も追加しています。

DDBJ全件に対する検索と同様に,RefSeqデータベースに対しても高速に計算することが可能です。

例えば,以下の2つの例では,サーバの混み具合によっても変わりますが,約1分で計算することができました。

例1.ヒトの完全長cDNAとゲノムとの比較
この例のプログラムは,こちら からダウンロードできます。
実行条件:
  • プログラム: blastn
  • 参照データベース: Reference genomic sequences (200万件の配列,合計1400億塩基)
  • クエリ: 遺伝子 ALDH2 の完全長 cDNA (DDBJ Accession: BC002967, 配列長: 2050 bp)
  • パラメータ: -b 100, -v 100
実行結果:
ヒトを始め,ウマ,イヌ,チンパンジー,オランウータン,アカゲザルなどのホモログ生物種の一覧を取得することができます。さらに,それらの生物種のゲノムもしくは Whole Genome Shotgun 配列上の相同性が高い染色体番号や染色体上の位置を確認することができます。
例2.環境由来配列とゲノムとの比較
この例のプログラムは,こちら からダウンロードできます。
実行条件:
  • プログラム: blastn
  • 参照データベース: Reference genomic sequences (200万件の配列,合計1400億塩基)
  • クエリ: 生物種が不明な環境由来 DNA 配列 (DDBJ Accession: HQ188503, 配列長: 508 bp)
  • パラメータ: -b 100 -v 100 -W 28 -X 20 (megablast と同等なオプション)
実行結果:
低温菌シュワネラ属のさまざまな生物種のゲノム配列の相同性が高い領域を確認することができます。さらに,その領域のアノテーションを確認すると,16S ribosomal RNA の領域であることが分かります。
詳細は,こちら をご参照下さい。

SAKURA 生物情報の入力方法が変更

SAKURA は,DDBJ が運用している WWW 経由の塩基配列データ登録システムです。
生物名入力画面の改善をおこなうこととなり,2010年10月26日から SAKURA の生物情報の入力方法が変更になりました。詳細は,SAKURA からの配列データ登録に際して をご覧下さい。実際の入力方法は,SAKURA へ登録開始後に表示されるヘルプページをご参照下さい。

「ユーザーの皆様へ,お願いです!」 〜 その2.よりスマートな公開のために

DDBJ では,皆様からお預かりした貴重なデータを,滞りなく速やかに公開するため,日夜,努力を続けています。 データは,いつでも公開できる準備を事前に整え,そのタイミングを静かに待っています。 とは言うものの,いざ公開となってから,雑多な作業が必要になり,てんてこ舞いする事も多々あります。 ”より多くのデータを正確かつスムーズに”公開するための妨げとなる諸問題を解決するため,データ登録者の皆様のご協力をお願いいたします。


1.”年末,年度末” 問題
例年,年末および年度末の時期では,公開予定のデータ,新規登録のデータが大変多く,通常時の十倍以上の件数となります。そのため,作業員は,特別体制で対応しておりますがお返事の遅れなどが発生する場合もあります。 可能でしたら,この時期をはずしてデータの登録を行う,公開予定日を「年末,年度末」以外の日付に設定する,などして頂きますと助かります。 また,この時期,ユーザー対応に遅れが見られる場合もございますが,どうかご理解をお願いします。

2.”データ公開予定日の管理” 問題
データは設定された公開予定日になりますと,直ちに公開作業を開始します。 予定日の10日前に予告メールを送信していますが,近年,この予告メールが迷惑メールとして除外され,登録者ご自身に到達しない場合が見受けられます。 「DDBJ から何も連絡がないのに(と思っていたが実は予告メールは送信済み),意に反してデータが公開されてしまった」となりませんよう,非公開データについては,ご自身で公開予定日の管理をお願いします。
登録データが,データベースから公開されてしまった場合には以下のように扱われますのでご注意下さい。
  Q:公開を取り消したデータが,現在も参照できるのはなぜですか?

3.”メールトラブル” 問題
近年,宛先アドレスに到達していないにもかかわらず,エラーリターンにならないメールが増えてきました。 こちらでは登録者宛に連絡しているつもりでも現実には連絡ができていない場合もあります。 「DDBJ からの連絡がちっとも無い」と思われる場合には,お手数ですが お問い合わせ からご連絡をお願いします。また,迷惑メール対策機能 もご確認下さい。
その他,連絡先アドレス(コンタクトパーソンメールアドレス)が利用不可能となっている場合もあります。 アドレスの変更がありましたらすみやかに お問い合わせ の「塩基配列データの更新・修正」までお知らせ下さい。

4.”修正しないとデータが公開できない” 問題
主に新種の生物名に関連する場合では,データ公開前に生物名の修正が必要となります。 この変更作業は GenBank との密接な情報交換を伴いますので時間が必要になります。どうぞご注意下さい。 その他の feature 情報の変更が必要な場合には,下記の定義に則ってご指定下さい。
  Feature key の定義
  Qualifier key の定義
  タンパク質コード配列; CDS feature について

5.”DDBJ の明日はどっちだ?” 問題
まだまだ,力の足りない DDBJ ですが,次世代に向けて新たな一歩を踏み出す時がきています。これからどうしていくべきか,何が皆様から求められているのか,今,できる事は何なのか。昨今の仕分け論議の盛り上がりもあり,日々悩みの種は尽きません。DDBJ はこれからも,適切な目標をたて,限られた資源を効率良く運営していかなければなりません。「わかりにくい DDBJ」から「頼りがいのある DDBJ」に変わっていきたい!との思いは皆,強く持っています。とは言うものの内部の人間からは見えない問題点もあります。 DDBJ の明日のため,どうぞ皆様のお知恵をお貸し下さい。

皆様からは,多くのお叱りを頂く事を覚悟しつつ,忌憚のないご意見をお寄せ頂けましたら幸いです。 ddbjmag@ddbj.nig.ac.jp までお願いします。

DDBJ アノテータの業務紹介 〜 1.Primary Database を維持するということ(前編)

ユーザーの皆様に DDBJ の業務内容を知って頂き,より身近に感じて頂くために DDBJ のアノテータの仕事をリレー連載コラムで紹介します。


  Primary Database を維持するということ(前編)
DDBJ チーフアノテータ 真島 淳

自己紹介みたいなものは興味のある場合だけ, 過去の雑文を読んでいただくことに代えて割愛します。 ただ, 当時と違い今は chief でも, annotator でもないという説もあります。 それでも, 現場ではエラそうに仕切っているという不思議な感じにしています。

今回は リレー連載形式で DDBJ annotator の業務を紹介するという主旨で枠を割いてもらい, その最初を任されました。 どのように書くべきかには迷いましたが, 細かい仕事の実際は他のメンバーに任せて, 古株っぽく理念のようなものについて, 整理してみましょう。 堅苦しくならないように, 書いていきます。

1. DDBJ の抱える primary database 特有の事情

INSDC は primary database を構築している」という主張は GenBank (NCBI) と EMBL-Bank (ENA/EBI) との対話において頻出しますが, 今一つ一般的には浸透していません。 primary database とは, おそらく一般には「個々の研究者が自らデータを登録する仕組みで収集されたデータベース」というようなことを指すと思います。DDBJ におけるデータのサイクルを図に示しています。

    

primary database の場合, そのコンテンツに関する responsibility とか, 文責のようなものは, 本来, 登録した個々の研究者に帰せられるべきです。 よく混同される RefSeq を対照例にします。 RefSeq は NCBI が独自に構築しており secondary database に相当します。 対して DDBJ/EMBL-Bank/GenBank は一般の研究者が決めた塩基配列を受け付ける primary database に相当します。 RefSeq は実は DDBJ/EMBL-Bank/GenBank から引用, 冗長性をなくすような選択, NCBI の staff による記述の見直しと修正などを経て構築されています。この特定 staff が自由に記述を改訂することが可能か否かの点が primary database と secondary database で大きく異なります。 RefSeq の FAQ の項目で説明されていますが, この文脈では GenBank と DDBJ, EMBL-Bank は等価ですので, 読み替えてください。

生命情報の分野には多数のデータベースが存在しますが, その多くは secondary database か, あるいは, 自身のデータを整理するといった対象を限定したデータベースに相当します。 secondary database は書式・判断基準などの制御が容易ですので, 目的に合致した形式で よく整理されていれば, primary database を直接検索するよりも効率が良いケースも多いと思います。 しかし, primary database なしには, secondary database は存在し得ません。

時折, DDBJ にいただく意見に primary database としてのデータベース, または, そのコンテンツの性格をご理解いただいていないと感じることがあります。 例えば, データの間違いを指摘しても直らない, といった批判があります。しかし, そのデータの登録者が不誠実なのか, データベース管理者が登録者に伝えることができないのか, 批判している人物の指摘が妥当ではないのか, 要因別に責任の所在が異なります。 primary database の場合には, データベース管理者の責任とかデータベースの欠点というより, 事業の性格と理解・許容すべき点もあるではないかと思います。 そういえば, DDBJ が primary database である, という根本的な説明を記載する機会にも恵まれていなかったような気がします。

この分野では primary database として成功している実例の1つに wwPDB がありますが, データ量を議論したとき, INSDC に匹敵するものは, まずないと思います。 INSDC のデータは蓄積量も確かに膨大ですし, 日々の処理も それなりに多いのです。更に, もし, 個々の研究者から送られてくるデータを何もせずに置いておけば良いのでしたら運営も非常に楽なのですが, 実際はモロモロの理由から, それでは済みません。 primary database もデータベースですから, データが書式に則っていないと差し障りがあります。

2. DDBJ, すなわち primary database としての INSDCへの登録

ここで やっと annotator の業務の話になるのですが, DDBJ においては「国内外の一般研究者から送られてくる塩基配列とその付帯情報を公開可能な状態に整える作業」であり, これを「査定業務」と称しています。 この定義文のような文章は, 数年前に私が何かの書類提出用に業務を説明するために書きましたが, ほぼ そのまま使われていました。 もっとも DDBJ は, 20 年以上前から primary database を運営してますから, こんな文言が私が書く以前にはなかったことが不思議です。当たり前のように感じている活動の言語化は意外に難しいのかもしれません。 「査定」の英語が annotation で それをする人が annotator です。 ちなみに GenBank では同じような職種を indexer, EMBL-Bank では curator と呼んでいます。 DDBJ における「査定」を総括すると 登録者から送られてくる情報を 1) データベース記載規則に則る形式で 2) 登録者の意図する記載を 3) 正確に反映すること となるでしょうか。しかし, これが意外と難度の高い場面があります。

登録者側では, 面倒な「データベース記載規則」など, 読み下すことは困難でしょうし, 最終記載を意識しながら, データ入力するといった作業は, 結構, 厄介です。 特殊な単語が頻出しますから, スペルチェックも大変です。学名の間違いなども日常茶飯事です。 また, 塩基配列決定が身近になり過ぎたこともあり, 登録をする人が生物学を知らない職種にまで広がり, 記載を読んでも疑問符で, 結局, メールで問い合わせて謎が解けるといったことも多々あります。 クダらないと感じるような修正・訂正から 非常に高度な生物学的過程の記述法に悩むレベルまで, 様々ですが, いつも登録者とメールして解決を図っています。

生命情報分野の大御所の某センセイが, DDBJ は GenBank をミラーしているだけ, という主旨のことを現場も見ずに書いていますが, 実際には結構, いろいろな仕事を annotator も他の職種の人もしています。 ただ, 内部からは逆に, annotator は 細かい修正などせず, もっと登録者の自己責任と割り切って効率化を図れ, とも言われているのです。 primary database も, ある程度は正確さとか, 品質とかを保つ努力は必要でしょうが, バランスの難しいところがあります。

後編へつづく
アンケートへご協力下さい

アンケートは終了しました。

ddbjmag@ddbj.nig.ac.jp
この DDBJ メールマガジンは国立遺伝学研究所内の方と,配信を希望される方に送らせて頂きます。
配信申込・中止・変更の方は,「申込・変更」ページをご利用下さい。
発行:日本 DNA データバンク(DDBJ)
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111