DNA Data Bank of Japan
DDBJ メールマガジン 
No.28   2006年10月4日発行
English
apply 申込・変更
top 最新号 top
backnumber 過去の号
ddbj 発行:DDBJ
Search for
サイトマップ
ご利用の前に
DDBJ とは?
塩基配列の登録
  SAKURA
  大量登録
  登録データ更新
検索・解析
  ARSA   getentry
  TXSearch  
  FASTA   BLAST
  SSEARCH
  HMMPFAM
  ClustalW
 
  Web API
 
  GIB
  GIB-V
  GTPS
  GTOP
リリース詳細
リリース取得
  DDBJ リリースノート
  公開中リリース
Q and A
生命情報学へのとびら
  講習会   関連会議
  ゲノム機能発現研究会

 DDBJ の連絡先  mail
Copyright © 1995-2006
DDBJ All rights reserved.
 ■夏の終わりに 
ここ三島では,めっきり朝晩涼しくなり,鈴虫やこおろぎの声が秋を感じさせてくれます。メールマガジンを発信しているこの部屋にも,どこからか紛れ込んできた秋の虫が,夕方近くになると冷蔵庫の後ろの方で鳴いているようです。皆様のお住まいの地域でもいろいろな秋探しをしてみてはいかがでしょうか。 隔月公開の DDBJ メールマガジン第28号 web 版です。 メールマガジンに関するご質問やご意見がありまし たら ddbjmag@ddbj.nig.ac.jp までどうぞ。  hirugao
遺伝研敷地内のヒルガオ

 ■DDBJ リリース 67 完成 
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。 9月29日に DDBJ リリース67 を完成しました。 リリース67 のエントリ数は 61,144,621,総塩基数は 65,443,024,193 です。FTP による定期リリースおよび新着データのダウンロードサイトは こちらです。

また,現在 DDBJ リリースでは,いくつかのインデックスファイルを除いて,ファイルサイズが 300 MB を超えないように作成されています。次回リリース (Release 68 2006年12月末公開予定) より,ファイルサイズの最大が 1.5 GB に変更になります。これは,近年ネットワーク環境が飛躍的に向上し, ファイル転送可能容量ならびに転送速度が増加したことによるものです。今後は,インデックスファイルのみでなく,ddbj***##.seq と名前のついたファイルのサイズは全て, 最大 1.5 GB になります。  

 ■イネ日本晴ゲノム配列をアノテーション付で公開 
栽培イネ「日本晴」の complete genome 配列エントリ(Build3)が更新されました。アクセッション番号は AP008207-AP008218 です。更新内容は,日本を中心とした国際的なイネゲノムアノテーションプロジェクト,The First Rice Annotation Project Meeting(RAP1) において解析された結果が,付加されたことです。この更新によって,約26,800個のタンパク質コード領域(CDS)が記載され,AP008207-AP008218 は再公開されました。

本データは以下のサイトより取得できます。 また,RAP1アノテーション情報は国立遺伝学研究所にて公開されていますデータベース Rice Annotation Project Database (RAP-DB) でも閲覧できます。

関連ページ
 ■ブタ完全長 cDNA 1万エントリの新規公開 
農業生物資源研究所から登録されたブタの完全長 cDNA データ1万エントリを公開 しました。アクセション番号は以下の通りです。
これらは9月16日分の新着データとして DDBJ より公開されており,anonymousFTP サイトから一括取得が可能で す。
 ■ 第19回国際実務者会議報告 
DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは,国際塩基配列データベース共同構築の運営・推進を図るために,国際実務者会議を年1回開催しています。
2006年は NCBI のあるメリーランド州ベセスダで5月15日-17日に開催され,DDBJ からは国際実務者会議に5名のスタッフが出席しました。DDBJ, EMBL, GenBank 三極の活動の年次報告が行なわれた後,INSDC; International Nucleotide Sequence Database Collaboration 運用上の実務的な問題を以下のように討論しました。

検討事項と今後の課題
  • 利用に制限を伴う配列登録
    登録者の法的な権利,商業権などと関連する利用制限は,配列の利用に際し制限を設けないという INSDC の基本方針に抵触するため,これを認めないことを確認しました。

  • 登録されない配列
    論文に塩基配列を利用した結果が公表されているにもかかわらず,INSDC から配列を取得できないケースがある,という問題について,科学雑誌の論文著者,あるいは,編集者に連絡を取り,INSDC への配列登録の重要性を再確認してもらうことで一致しました。

  • INSDC ホームページ
    2005年にINSDC ホームページ http://www.insdc.org を立ち上げましたが,そのコンテンツの拡充を図っていくことで一致しました。

  • INSD-XML
    2003年から検討を重ねていた共通の XML フォーマット,INSD-XML に関しては,2005年から形式データを試験的に交換していました。この結果を受けて,3つのデータバンクに共通のフォーマットとして提供するべく,その DTD などの仕様の細部を検討しました。

  • locus_tag
    2003年からゲノムプロジェクト用に feature 継承のための識別子として locus_tag qualifier を使用可能としておりました。当時は locus_tag に自由度の高い記載を許可していました。2005年から,将来的にもデータベース全体を通じてユニークな ID としての機能を維持していくために,登録時に個有の prefix を割り当て,共有する枠組を検討しました。本年度中には稼動する予定です。

Feature と Qualifier の改訂
  • アミノ酸残基の略号を新規に追加
    1)Pyl (O); Pyrrolysine
    天然にコードされている22番目のアミノ酸として,pyrrolysine が発見されました。JCBN IUBMB-IUPAC (the Joint Commission on Biochemical Nomenclature of IUBMB and IUPAC) は,このアミノ酸略号に Pyl (3文字表記), O (1文字表記) の使用を推奨していくと合意しています。
    2)Xle (J); Leucine or Isoleucine
    leucine と isoleucine を実験的に区別できない場合のために,アミノ酸略号として,Xle (3文字表記), J (1文字表記) を使用します。
    そこでアミノ酸残基を示す略号として,下記を追加します。
    省略形1文字表記アミノ酸の名称
    XleJLeucine or Isoleucine
    PylOPyrrolysine
    今後,CDS feature の translation qualifier に示されるアミノ酸配列に,"J", "O" を含むことがあります。
  • repeat_region feature において transposon と insertion_seq の2つの qualifier が記載可能でしたが,下記の要領で mobile_element qualifier に統合します。
    書式/mobile_element="<mobile_element_type>[:<mobile_element_name>]"
    /mobile_element="transposon:Tnp9"
    備考<mobile_element_type>は以下から規定値の何れか1つ
          transposon
    retrotransposon
    integron
    insertion sequence
    non-LTR retrotransposon
    SINE
    MITE
    LINE
    other
  • source feature で由来分子種を示す mol_type qualifier の規定値に "viral cRNA" を追加します。
    viral cRNA の定義:
    マイナス鎖 RNA ウイルスが子孫のゲノムを産生する際に生じるプラス鎖の鋳型
  • rRNA feature で operon qualifier が使用不可でしたが,今後は使用可能とします。
  • EC_number 記述のチェックを厳密化します。また,正式番号が未割当なケースを明示するため,"n" (new の頭文字) を使用可能とします。
  • PCR_primers qualifier で示される配列に修飾塩基 (i.e. "i"; inosine)を記載する場合, "<" と ">" で括る必要があります。
    例:
    /PCR_primer="fwd_name; hoge1, fwd_seq;cgkgtgtatcttact
    rev_name; hoge2, rev_seq;cg<i>gtgtatcttact"

その他の変更
  • location の記載規則が,若干変更され,「 (m.n) 」が使用不可になります。

  ■getentry CONTIG エントリの配列取得機能の変更・追加 
getentry は DDBJ が WWW および E-mail で提供しているアクセッション番号などによる高速なエントリ検索システムです。このたび,web 版 getentry で CONTIG エントリを検索する場合の検索結果の 取得方法が変わりました。
取得方法[画面表示]を選択した場合の検索結果の配列取得機能を以下の様に変更・追加しました。
  • gap を含むデータでも連続したDNA配列の FASTA 形式での取得が可能になりました。
  • 実体配列を持つ CONTIG エントリの実体配列の取得を可能にしました。 (例:CM 000230)

  ■Web 版 getentry での CONTIG エントリの一部検索不具合に関するおわび 
getentry は DDBJ が WWW および E-mail で提供しているアクセッション番号などによる高速なエントリ検索システムです。
このたび,一部のエントリが web 版 getentryで表示できない状態が発生していたことが判明いたしました。
表示できなかったエントリは,DDBJ ならびに GenBank から公開された contig エントリのピースエントリになっている contig エントリで,2006年6月8日に DDBJ が公開した CON 7296エントリ2006年4月20日に公開したメダカ strain Hd-rR WGS 22万エントリに対応)の一部も含まれています。
詳細は以下の通りですが,該当期間にweb 版 getentry を用いて, 以下の「状況」欄に該当する内容で検索を行なったと思われる方は,お手数をお掛け致しますが再度検索を実行して下さいますようお願い申し上げます。
なお,e-mail 版の getentry はこの影響を受けていませんでした。 web 版ついても対応作業が完了し,現在は正常に検索結果を得ることができます。
長期間にわたって正しい検索ができない状況が続いていたことにより,ユーザの皆様にご迷惑をお掛けいたしましたことを深くお詫び申し上げると共に,今後このような事態が発生することのないよう最大限の努力をいたします。
  • 期間:
    [DDBJ 由来エントリ] 2006年4月24日から5月24日
    [GenBank 由来エントリ] 2005年1月4日*から2006年5月24日
    *上記 CH エントリをピースとしているエントリの初公開日から算出した発生日(例:CM000126)
  • 原因:web 用検索プログラムの不具合
  • 状況:上記期間に次の条件で検索を行なった場合正しい結果を得ることができませんでした。 ID指定に[Accession]を,データベースに[DNAデータベース]を,出力形式に[フラットファイル (DDBJ)]を,取得方法に[画面表示]を選択し,クエリ入力欄に下記の対象エントリを入力して検索を実行した場合
  • 表示不可エントリ:-->番号リストはこちら
    [DDBJ 由来エントリ] 1121 エントリ
    [GenBank 由来エントリ] 1092 エントリ

 ■DDBJ スタッフコラム17  
「DDBJ は誰のモノか?」   

真島 淳(DDBJ Chief Annotator)

 本題に入る前に簡単な自己紹介が必要であろう。 著者は足掛け8年,DDBJ でアノテータをしている。 肩書きからは職務内容がわかりにくいが,主な仕事は「DDBJ に登録されてくるデータ,塩基配列とその付随情報をデータベースに読み込むための整理整頓」である。 仕事の細かい中身の説明は,別の機会に譲るとしてアノテータは,ともかくも特殊な専門技術者である。 職名アノテータの上に「チーフ」と付くので,その集団のリーダー格である。 が,多くの小集団において「○○部長」「主任」「チーフ」とは雑用係の別名である。
それでも,データベース仕様,記載規則に関して,一応それなりに発言権を持っているはず,多分,おそらく。
 さて本題に入ろう。 DDBJ は公共の国際塩基配列データベースである。 これが,「誰のモノか?」と問われれば「公共」と冠する以上,皆の共有物と考えるのが妥当であろう。で,終わりにしても良いのだが,もらった枠を埋める都合上,別の側面も考えてみよう。
 最近,評判の悪い金融系「会社は株主のモノ」的に議論すれば,国の予算で運営されているので,日本が国家として所有するモノである,という言い方も可能。これまた,評判が悪かった某監督交代「人事異動」騒動のように「社主・取締役のモノ」論なら,運営に関与する遺伝研の教員がこれにあたる。これらに対立する考え方として「働く社員のモノ」という視点から,データベースに携わる私自身を含めた作業者,システム管理をしてくれている技術者,広報担当者,事務担当者のモノとも言える。
 さらに某プロスポーツチーム vs 某ファンド関連の騒動から連想されるように,チームを愛するファンの視点から「ファンのモノ」的にも考えることが出来るだろう。 ファンとは,一般化すれば,お客様,神様?いや,顧客。 DDBJ は競技団体でも利潤追求団体でもない。 ファンも(多分)いないが,準えるべきは愛用者であろうか。 つまり相当するのは,登録者と利用者である。
 賢明な読者諸氏も先刻ご承知とは思うが,特に直接編集などに関わる立場からは「登録者と利用者,加えて,公共性」が「DDBJ,誰のモノ」論への模範解答である。
 しかし問題は正にココにある。データベースを運営する上で,ちょくちょく運用方針を決める必要が生じる。 このとき悩ましい事態は,利用者と登録者の立場を考えると,双方の利益が矛盾する(ようにみえる)場合である。
 単純な例を挙げよう。利用者から,時折,データが間違っている,とご指摘をいただく。見れば,なるほど,その利用者のご指摘は学術的に正当であるように思える。 しかし,これを直すとなれば,その是非を登録者に問うことが必要なケースもある。 そこに専門的な争点がある場合,利用者と登録者では解釈が異なる状況があり得ることは,ご理解いただけると思う。
 「誰のモノ」論を,もう一度,別の視点から捉え直そう。 DDBJ と個々のデータの関係は学術雑誌と掲載論文に似た位置付けである。 つまり個々の配列データは登録者が DDBJ を通じ公表した成果である。 最初の問題を「DDBJに登録された個別データは誰のモノか?」と読みかえた場合,答えは「登録者」。
 近年のデータ捏造疑惑に関する批判では,peer-review 論文における,referee,editorのあり方に関する言及があった。しかし, 一般に,個々に論文の内容に関して,通常の学術的批判をするならば,その著者に対して,であろう。 類似の批判を DDBJ の登録データに 対して行うとき,データベース管理者に矛先が向かうことが多い気がする。 そこに登録者の記載があるにもかかわらず,である。 何故であろうか?
 データベース側の広報が足りない,そもそもコンテンツが読み難い,こんなことを言い出すこと自体が責任転嫁だ,という厳しい批判の数々も事実であろう。 アチコチでご指摘を受けるし,私も意識していない訳ではない。 しかも塩基配列データベースは学術雑誌の論文投稿と違い,その登録先に関して寡占,実質は独占に近い。だから責任も重い。
 ただ,その割りには実働の作業者は少ないし,予算も少ないし,上司もアノテータ仲間もチーフに注文が多い...何の話だっけ?チーフアノテータは上司と仲間の板ばさみにも悩んでいる, という話...ではない,それも事実ではあるが。
 本筋に戻ろう。 DDBJ は広く一般から登録を受け付け公表するという,実は非常に特異な性質を持つ,データベースである。 しかし,何となく他のデータベースと同様!?に検索が可能になっており,記載が揃っている(...か,のように見える)。 そのため,類似の構造を持つ特定個人,または,団体が明確な意思と選択を持って構築したデータベースと同列に扱われてしまう,という宿命のようなものがあるのではないか?
 世界中の研究者から塩基配列の登録を恒常的に受け付けることにより,抱える配列データは著しく肥大した。この成長量は当初の企画者が想定した状態を上回るものだっただろう。データ増大はデータベースにとって最大のメリットであるが,同時に種々の困難を生じてきた。最大の問題はデータベースの成長に管理者が追いついていないことである。
 DDBJが業務を開始した当時のことは,私も物語としてしか,知らない。 約20年前,当時は塩基配列の決定自体が論文になる時代であり,登録も検索の要求も −現在とは比較にならないほど− 少なかったらしい。 その頃は,おそらく手綱を握ることは比較的容易だっただろう。
 しかし,登録者と利用者からの要求は,時代とともに増加し変遷し厳しくなった。 塩基配列をめぐる周辺の状況も多様化した。 例えば,当時は EST を想定していなかったはずだ。 このような矛盾を解消する策を講じるのは,我々の仕事だ。 しかし大袈裟に聞こえるかもしれないが,今,DDBJ が機能していること自体が奇跡と思えるような逸話が内輪には少なからずある。
 「公共のモノ」とは,ともすれば管理者の手も届かない,誰のモノでもない,ということにも近しい。
 最後にお願いをして終わろう。 公共物であれば使用権には義務を伴うのは自然なこと。 DDBJ に登録してくださる研究者の皆様へは論文を投稿する際に準じた責任感を,DDBJ を参照利用される皆様へは論文を読むときのような細心さを,どうか意識していただきたい。 それこそが,DDBJが皆様のモノであり続けるために不可欠,つまりは利用権を守るための「不断の努力(憲法第12条風)」ではないだろうか。



  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい: ddbjmag@ddbj.nig.ac.jp
発行: 日本 DNA データバンク (DDBJ)
  大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111
Last modified: Oct. 07, 2011