DNA Data Bank of Japan
DDBJ メールマガジン 
No.33   2007年8月29日発行
apply 申込・変更
top 最新号 top
backnumber 過去の号
ddbj 発行:DDBJ
Search for
サイトマップ
ご利用の前に
DDBJ とは?
塩基配列の登録
  SAKURA
  大量登録
  登録データ更新
検索・解析
  ARSA   getentry
  TXSearch  
  FASTA   BLAST
  SSEARCH
  HMMPFAM
  ClustalW
 
  Web API
 
  GIB
  GIB-V
  GTPS
  GTOP
リリース詳細
リリース取得
  DDBJ リリースノート
  公開中リリース
Q and A
生命情報学へのとびら
  講習会   関連会議
  ゲノム機能発現研究会

 DDBJ の連絡先  mail
Copyright © 1995-2006
DDBJ All rights reserved.
 ■残暑お見舞い申し上げます 
 ■キーワード検索ARSA のリニューアルと本運用開始 
DDBJ では,高速キーワード検索システム ARSA(All-round Retrieval of Sequence and Annotation) の試験運用を終えて 2007年6月より,いよいよ本運用を始めました。

ARSA は,下記のような特徴を有しています。
  1. DDBJ(国際塩基配列データベース)を始めとする23種類のデータベースを対象に高速なキーワード検索を実現
  2. 複雑な検索条件や大量のヒットがある条件で検索しても,23種類すべてのデータベースに対して一定の検索レスポンスを提供
  3. DDBJ を対象にした検索では,Features/Qualifiers を指定した詳細な条件による検索が可能

さらに,このたび,これまでの試験運用の間のご意見をもとに次の機能を付加しました

  • 複数データベースからの結果を一括ダウンロードを可能に(右図1)
  • DDBJ 以外のデータベースでも表示項目の選択を可能に(右図2)
  • 結果画面でデータベースを再選択可能に(右図3)
  • 結果画面で表示項目を再選択可能に(右図4)
  • 結果画面で表示件数を再選択可能に (右図5)
  • 結果画面の下部にページジャンプのリンクを追加
その他にも細かな仕様改善を加えました。
  • TSV(Tab Seaparated Value) 形式でのダウンロードは出力は
    タブ区切りテキストで,拡張子は .txt になります。
  • NarrowSearch の名称を RefineSearch に変更
  • SimpleQuery の廃止
  • HTTP ダウンロードの廃止(FTPダウンロードへの一本化)
ARSA
その他にも細かな仕様改善を加えました。 また,Java や Perl から ARSA の機能を呼べるように API を充実いたしました(詳細は,DDBJの Webサービス をご参照ください)

DDBJ では,今後さらに,皆様からのご意見をもとにして,より使いやすく強力なキーワード検索システムを目指して機能拡張を進めていきます。ARSA にて 「Your Comment」 をクリックして, 批判とご提案をご記入下さい。

 ■DDBJフラットファイルフォーマット改訂:E-mailアドレスと電話番号,FAX番号の非表示化 
改訂概要
個人情報保護,および,迷惑メール増加などへの対応としまして,DDBJ では,DDBJ が登録を受け付けたエントリに関しましては,E-mail アドレスと電話番号,FAX 番号を非表示化いたします。DDBJ では,ほぼ全ての DDBJ が過去に登録を受け付けたエントリを改訂します。ただし,GenBank,EMBL が受け付けたエントリに関しましては修正しません。この改訂は,2007年12月末,DDBJ 定期リリース72 において完了予定です。
これまで,データベース利用者から各配列の登録者に対する連絡は対象フラットファイルを参照することで自由に行うことが可能でしたが,この改訂により,一般的には,この連絡が取り難くなります。研究上の問題に関して,各配列の登録者への連絡が必要な場合はメッセージを転送いたしますので,お手数ですが,別途設置予定の問い合わせフォームからご連絡ください。その際は簡単な理由(「clone 譲渡を希望」など)を書き添えてください。
申し訳ございませんが,ご理解とご協力をお願いいたします。

改訂詳細
現在,登録者の情報は一般に,REFERENCE 1 の JOURNAL 行に下記のように示されています。
  
 JOURNAL   Submitted (30-NOV-2000) to the DDBJ/EMBL/GenBank databases.
           Hanako Mishima, National Institute of Genetics, DNA Data
           Bank of Japan; Yata 1111, Mishima, Shizuoka 411-8540, Japan
           (E-mail:mishima@supernig.nig.ac.jp, Tel:81-55-981-6853,
            Fax:81-55-981-6849)
本改訂後は,下記の2つの表示形式の何れかを選択することになります。
Type 1: 一般的には,E-mailアドレスと電話番号,FAX番号を非表示とします。

  JOURNAL   Submitted (30-NOV-2000) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
 
Type 2: 登録者が,E-mailアドレスと電話番号,FAX番号の表示をご希望の場合,以下の形式で表示します。

  JOURNAL   Submitted (30-NOV-2000) to the DDBJ/EMBL/GenBank databases.
            Contact:Hanako Mishima
            National Institute of Genetics, DNA Data Bank of Japan; Yata 1111,
            Mishima, Shizuoka 411-8540, Japan
            E-mail :mishima@supernig.nig.ac.jp
            Phone  :81-55-981-6853
            Fax    :81-55-981-6849
DDBJ への既登録分に関しましては,原則,一括で上記 のType 1の様に非表示としますが,表示しておく必要がある場合は, ddbjupdt#&64;ddbj.nig.ac.jp にご連絡いただければ,個別に対応いたします。表示・非表示は「E-mailアドレス」「電話番号」「FAX番号」それぞれ個別に指定可能です。

 ■DDBJ リリース70 におけるメタゲノム CON エントリの大幅な増加について 
DDBJ リリース70 で CON エントリが 983,699 から 3,932,751 と大幅に増加しました。 これは,J. Craig Venter Instituteから登録された,4,087,206 エントリが 2007年4月に追加されたためです。

これらのデータは,海洋メタゲノム研究の成果であり,以下の論文で詳細が紹介されています。
また,下記もご参照ください。 これらエントリは,DDBJ でgetentryから参照することができます。(データは,「FTP を利用したリリースデータ取得」ページの DDBJ 最新リリースデータ,ならびに WGS データからも取得できます)。アクセッション番号は下記です。

      CON entries:   EM000001-EM999999,
EN000001-EN999999,
EP000001-EP999999,
EQ000001-EQ087209
Piece WGS entries:  AACY020000001-AACY024124495


 ■XML Central of DDBJ Web サービスのページを一新!機能もクール,デザインもクール 
xml DDBJ の XML Central of DDBJ ページの Web サービスを使うと,ブラウザーを通してコピー&ペーストの煩雑な手作業の繰り返しを自動化できます。Java や Perl のプログラムで Web サービスのメソッドを呼び出すモジュールを作っておいて,それをワークフローとして組み立てることができます。また,後々モジュールを差し替えることも簡単にできます。

DDBJ の Web サービスではこれまで SOAP(Simple Object Access Protocol) を使ってきましたが REST を介したサービスも拡張していきます。




 ■第20回国際実務者会議報告 
DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは,国際塩 基配列データベース共同構築の運営・推進を図るために,国際実務者会議を年 1回開催しています。 2007年は英国の EBI で5月21日-23日に開催され,DDBJ からは7名のスタッフが 国際実務者会議に出席しました。DDBJ, EMBL-Bank, GenBank 三極の活動の年次 報告が行なわれた後,INSDC; International Nucleotide Sequence Database Collaboration 運用上の実務的な問題を以下のように討論しました。


検討事項と今後の課題
  • INSDC ホームページ
    2005年からINSDC ホームページを立ち上げましたが,そのコンテンツ に feature 記述サンプルを提示していくことを検討します。

  • alternative assemblies の登録について
    大量のドラフト配列が公開されているため,これをアセンブルした研究者が成 果を INSDC に登録することを求めています。どのように扱うべきか方針を検討 しました。既存のTPA の枠組みに組み込むべきか,など検討しました が結論に至らず,国際諮問委員会に意見を求めることになりました。

  • GSC および MIGS 関連
    Genomic Standards Consortium (GSC) は,完全長ゲノム配列とメタゲノムのデータセット標準化を目指す団体であり,「 Minimal Information about a Genome Sequence (MIGS)」の仕様策定を進めています。三極は GSC の活動に協力していく方向で合意しました。

  • EST/GSS clone library ID 導入の検討開始
    学術用・商用の双方のEST と GSS の clone ライブラリに個別のIDを割り当 てるための枠組を検討します。

  • KEYWORDS 行の語彙制御
    三極は以下の3つの用語を共通の keyword として使用することで合意しました。
    EST の向きと相対位置を示す2つの用語
        "5'-end sequence (5'-EST)"
        "3'-end sequence (3'-EST)"
    完全長cDNA projectに属するエントリであることを示す用語
        "FLI_CDNA"

 
Feature と Qualifier の改訂

以下に挙げる項目は,特に断り書きがない限り,2007年10月のFeature Table Definition の改訂後に適用されます。
  • 新 feature ncRNA が追加されます。
    近年,"miRNA","siRNA" などの多様な新しい RNA 転写産物が見出されています。このようなタンパク質をコードしない RNA ファミリー数は増加することが予想されるため,新規に,柔軟な対応が可能な ncRNA feature を追加します。
    また,これに伴い,snRNAsnoRNAscRNA の3つのfeature は,2007年12月までに ncRNA feature に統合されます。

  • /ncRNA_class が追加されます。
    上記の新規 feature,ncRNA では,non- protein-coding RNA の種類を示すために,新規 qualifier,/ncRNA_class を使用します。
    書式: /ncRNA_class="<ncRNA_class_TYPE>"
    例 : /ncRNA_class="miRNA"
    <ncRNA_class_TYPE> は以下の規定値リストから選択されます。
    "antisense_RNA""autocatalytically_spliced_intron""telomerase_RNA"
    "hammerhead_ribozyme""RNase_P_RNA""RNase_MRP_RNA"
    "guide_RNA""rasiRNA""scRNA"
    "siRNA""miRNA""snoRNA"
    "snRNA""SRP_RNA" "vault_RNA"
    "Y_RNA" "other" 
    <注>このリストは未確定です。修正される可能性があります。

  • 新 feature tmRNA が追加されます。
    tRNA と mRNA の両方の性質を持つ RNA を記載するため,新規に tmRNA feature が使用可能になります。tmRNA に関する情報は,tmRDBtmRNA Websiteに詳しいので,ご参照ください。

  • 新 qualifier /tag_peptide が追加されます。
    tmRNA のタンパク質分解タグペプチドに対応する塩基位置を示すために,tmRNA feature で新規 qualifier /tag_peptide が使用可能になります。
    書式: /tag_peptide=<base_range>
    例 : /tag_peptide=90..122


  • source feature で由来分子種を示す /mol_type qualifier の規定値に "tmRNA" を追加します。

  • /specimen_voucher qualifier の値が institution code, collection code, 標本IDを含めていた値に構造化されます。ただし,従来の自由記述も保持します。
    書式: /specimen_voucher="[<institution_code>:[<collection_code>:]]<specimen_id>"
    /specimen_voucher qualifier の書式は以下の3通りになります。
        <specimen_id>
        <institution_code>:<specimen_id>
        <institution_code>:<collection_code>:<specimen_id>
    値に1つ以上の ":" が含まれる場合は,「構造化されている」と扱います。
    Institution_code と省略可能な collection_code は,その標本の属する博物館を示すために,管理されている用語を使用します
    例 : /specimen_voucher="UAM:Mamm:52179"
    /specimen_voucher="AMCC:101706"
    /specimen_voucher="USNM:field series 8798"
    /specimen_voucher="personal collection:Dan Janzen:99-SRNP-2003"
    /specimen_voucher="99-SRNP-2003"

  • 新 qualifier /culture_collection と /bio_material が追加されます。
    2つの qualifier,/culture_collection と /bio_material が source feature で使用可能になります。上記,/specimen_voucher と同様の書式です。
    culture_collection; 塩基配列の得られた培養系の institution_code とID
    書式: /culture_collection="<institution_code>:[<collection_code>:]<culture_id>"
    例 : /culture_collection="ATCC:26370"
    bio_material; 塩基配列の得られた生物学的資料のID
    書式: /bio_material="[<institution_code>:[<collection_code&'gt;:]]<material_id>"
    例 : /bio_material="CGC:CB3912"
        CGC; Caenorhabditis Genetics Center

  • old_sequence feature は,新規登録では使用不可になります。

  • DDBJ の新規登録では,repeat_unitsatelliteの2 feature は使用不可になります。repeat_unitsatelliterepeat_reigon feature に統合する予定です。

  • 5'clip3'clip の2つの feature は使用不可になります。

  • misc_recomb feature で /organism qualifier が使用可能でしたが,使用不可になります。

  • /operon qualifier が protein_bind feature でも使用可能になります。

  • /inference qualifier の [TYPE] 規定値に "alignment" を追加します。

 ■DDBJ リリース開始より20周年 
DDBJ 本格活動20周年を迎えて

舘野義男
国立遺伝学研究所 生命情報・DDBJ研究センター
日本DNAデータバンク バンク長


      今年(2007年)の7月でDDBJ が本格活動してから20年目を迎えることになった。ここで本格活動開始と,はDDBJ が収集・編集した DNA データを世界に向けて公開(リリースと呼ぶ)を開始したこととする。リリース1は,1987年7月公開され,その内容は僅か66エントリー,108,970塩基だった。これらのデータはDDBJ が収集・編集したデータのみであり,1991年7月のリリース9まではすべて DDBJ のみのデータを公開していた。この頃,DDBJ の責任者である五條堀孝さんの提案で,この次のリリースから EMBL Bank や GenBank のデータも含めようということになった。その結果,1992年1月に公開されたリリース10は9に比べて一挙に50倍以上のデータ量になった。当時DDBJのスタッフの一人だった林田秀宣さんが,「メダカが鯨を呑み込むようなものだ」と言ったのを思い出す。
      DDBJ の本格活動以前に,我が国の DNA データバンクの設立に向けて種々の活動が始まっていた。これらの活動は,私達の諸先輩がこのデータバンク設立の重要性を十分に認識され,ご自身の研究を犠牲にしてまで遂行されたと聞いている。この稿では今は余り知られていない,これらの活動の一端を紹介したい。活動の中心的存在だった元東大・医科研教授の内田久雄先生が数日前に逝去され,この思いを強くしている。
      公共 DNA データバンクは,1980年まずヨーロッパでの統合バンクを設立すべく,ドイツ,ハイデルベルグの EMBL 内にその準備室が組織された。この約2年後,筆者はマックスプランク研究所を訪問することがあり,ついでに近くの準備室にも足を延ばした。僅か3,4名ほどが従事する小さな組織だった。また同じ頃,アメリカに GenBank が設立された。今年は EMBL Bank の本組織設立25周年にあたり,EBI で開催された第20回DNAデータバンク国際実務者会議の期間中にその記念式典が行われた。筆者も式典に参加したが,多くの EBI の参加者を目の当たりにして,隔世の感をもつとともに心からお祝いの気持ちを伝えた。実は,我が国のDNAデータバンクの設立は,欧米の両バンクからの働きかけが契機となっている。
      準備室の組織化の直後,まず1980年8月EMBLから東大・医科研の内田教授に働きかけがあった。次いで,1982年9月,EMBL と GenBank の代表者の連名で国際 DNA データバンクへの参加要請があった。要請先は,当時科学技術DNA研究推進委員長をしておられた東大の和田昭允教授である。1983年,この要請を受けて,科研費特定研究「遺伝情報システム編成」(代表者小関治男京大教授)が認可され,緊急措置として,京大・化研の大井龍夫教授の研究室に「仮センター」が委託された。次いで,1983年8月,「DNAデータバンク運営委員会」が設置され,内田教授が委員長に選ばれた。この委員会には,和田教授,小関教授,大井教授,高浪満京大教授,丸山毅夫遺伝研教授,宮田隆九大教授,榊佳之九大教授,堀寛名大教授(いずれも当時の職)らが委員として参加している。この中には,内田先生をはじめ故人となられた方々もおられる。
      1984年2月DNAデータバンク運営委員会において,我が国を代表し欧米のバンクと国際共同構築を行うDNAデータバンクを遺伝研に設立することが決まった。また,その名を DNA Data Bank of Japan (DDBJ) とすることとした。その後1986年文部省から DDBJ に予算措置が講じられた。1987年2月ハイデルベルグで workshop が開かれ,内田教授,丸山教授,金久実京大教授が参加した。この workshop で,DNAデータバンクを国際的な立場から助言勧告する国際諮問委員会の設置が決定された。そして,1988年2月アメリカ,ベセスダで第一回DNAデータバンク国際諮問委員会,7月ハイデルベルグで第一回 DNA データバンク国際実務者会議が開催された。両会議には DDBJ を運営することになった宮澤三造さんた出席した。1990年3月には三島プラザホテルで第三回国際諮問委員会が開催され,欧米バンクの関連者と富澤純一所長を始めとする遺伝研の教員が出席したが,筆者も列席したことを覚えている。そして,この年五條堀さんが宮澤三造さんの後を継いでDDBJを運営することになり,筆者も加わることになった。また,1996年4月には国際諮問委員会と国際実務者会議が遺伝研で開催されたが,この期間中にDDBJ10周年記念式典ならびに祝賀会が,両会議出席者,文部省関係者,遺伝研運協・評議委員,遺伝研教職員らの参加を得て盛大に開催された。
      この20年の間,辞められた方々を含めて実に多くの方々が DDBJ の仕事に携わってこられている。その全員の方々と共に20周年を祝いたいと思う。(終)
2007年7月

参考:

 ■DDBJ の最初の登録データとは? 
DDBJ リリース20周年を機に,DDBJ のアノテータが,DDBJの最初の登録データを調査しました。 長年,DDBJ の一番最初のデータは謎でしたが、今回の調査で明らかになりました。調査には DDBJ リリース1とリリース2を使用しました。


「DDBJ の起源 "Origin of DDBJ" -最初の登録データ-」

青野 英雄(DDBJアノテータ)

DDBJ がリリースデータの提供を始めて20年が経過した。リリース1は DDBJ の登録データのみで構成され,1987年7月に66エントリーが提供された。リリース2は1988年1月に142エントリーが収録され,1992年1月のリリース10からは59317エントリーの提供が行われ EMBL/GenBank のデータも含まれる様になった。最新のリリース70では7280万エントリーとなり,リリース1から比べるとエントリー数は110万倍に増加している。この巨大なデータを有する国際塩基配列データベース(INSDC)の一翼をなす DDBJ において,起源となるべき DDBJ の最初の登録データについて報告したい。

1. DDBJ の最初の登録データ
DDBJ の作業者が最初に入力を行ったデータは,D00001(N00001) であった。記録によると1986年12月18日に,大腸菌の penicillin-binding protein 2 のデータ入力が開始された。リリース1で提供されたデータであり,N00001 のアクセッション番号が割り振られた。その後リリース2で N00001 は D00001 のセカンダリーデータ(*)となり,現在は以下の様に X04516 のセカンダリデータとなっている。
-----------------------------------------------------------------------------
DEFINITION  E. coli pbpA gene for penicillin-binding protein (PBP)2.
ACCESSION   X04516 D00001 N00001
リリース1で提供された N00001 のデータ
-----------------------------------------------------------------------------
また入力データについて査定が完了し,最も早く公開できる状態になったデータは,D00004(N00004) であった。記録によると1987年1月26日に査定が完了している。B型インフルエンザの PB1 polymerase protein のデータであり,リリース1で N00004 のアクセッション番号が割り振られた。その後,リリース2で以下の様に D00004 のセカンダリーデータとなっている。
-----------------------------------------------------------------------------
DEFINITION  Influenza B virus (B/Lee/40) mRNA for PB1 polymerase protein,
             complete cds.
ACCESSION   D00004 N00004
リリース1で提供された N00004 のデータ
-----------------------------------------------------------------------------
2. DDBJ のリリース1
現在のアクセッション番号の発行は,登録者による塩基配列データ登録,登録データの査定,アクセッション番号の通知という流れになっている。配列に関する論文を投稿する際には INSDC への登録が義務付けられており,論文にはアクセッション番号が引用されることとなる。しかし DDBJ 活動当初のデータ登録は,現在とは逆の形態をとっていた。当時は DNA データの収集に主眼が置かれており,作業者が論文を参照して塩基配列を手で入力を行い,論文内容からアノテーション情報を抽出しデータの格納・査定を行い,データベースを構築していた。この作業を Journal Scan といい,論文が出版された後にアクセッション番号の発行が行われた。
D00001(N00001) および D00004(N00004) を含むリリース1 データは,全て Journal Scan のデータである。 DDBJ の数名のスタッフが手でデータ入力を行い,完成させたのがリリース1 である。このリリース1 のデータ量は GenBank および EMBL の約l00分の1に過ぎなかった。しかし現在は,DDBJ のエントリー数においては EMBL に勝る状態にまで至っている。

3. アノテーションの記述法の変化
現在のアノテーションは,DDBJ/EMBL/GenBank Feature Table Definition(FT-doc) に従い注釈されている。しかし1987年当時のリリース1 のデータでは,アノテーションの記述は現在とは異なる記述方法がなされていた。下記に D00001(N00001)とD00004(N00004) のアノテーションを抜粋した。
-----------------------------------------------------------
D00001(N00001)
FEATURES       from  to/span     description
    pept       1035     2936     PBP2
  SITES
    refnumbr      1        1     numbered 1 in [1]
    signal      141       34     consensus promoter sequence
    binding     296        5     ribosome binding site for ORF1
    ->ORF       324        1     unidentified ORF1 start
    binding     526        4     ribosome binding site for ORF2
    ORF<-       533        1     unidentified ORF1 end
    ->ORF       537        1     unidentified ORF2 start
    ORF<-      1004        1     unidentified ORF2 end
    binding    1018        5     ribosome binding site for PBP2
    ->pept     1035        1     PBP2 start
    pept<-     2936        1     PBP2 end

D00004(N00004)
FEATURES       from  to/span     description
    RNA     <     1       13     non-viral HeLa mRNA
    pept         34     2292     PB1 peptide (497th a may be t to code leu.)
    RNA        2381       14 (c) polymerase PB1 complete genome
  SITES
    mRNA<-       13        1     non-viral HeLa mRNA end
    ->virion     14        1 (c) polymerase PB1 genomic RNA end
    refnumbr     14        1     numbered 1 in [1]; zero not used
    ->pept       34        1     PB1 cds start
    conflict    497        1     probably t to code leu
    pept<-     2292        1     PB1 cds end
    site       2365        1     polyadenylation site
    virion<-   2381        1 (c) polymerase PB1 genomic RNA start
-----------------------------------------------------------
リリース1のアノテーションでは Feature 項目(塩基配列上の特徴),from to(Feature 開始[終了]位置),span(Feature 領域塩基数),description (Feature 内容)で記述されていた。また各 Feature の位置情報は開始位置のみで,終了位置については span 情報で開始位置から数えて何塩基目までかという方法で指定されていた。塩基配列の由来生物情報を示す source feature もなく,Feature の特性を記述する Qualifier も存在していなかった。当時のアノテーション情報は,直感的に記述内容を理解することが難解な事は否めない。
FT-doc の雛形は1989年に制定され,DDBJ/EMBL/GenBank 共通のアノテーションの記述方法に変更されていくこととなる。毎年,国際実務者会議で検討が行われ,FT-doc は改定され続けている。現在のアノテーションと比較すると20年の DDBJ の活動の中で記述方法がユーザーへの利便性,最新の生物学的知見に合致する様に,より洗練されていったことが窺がえる。下記に X04516(D00001, N00001) と D00004(N00004) の現在の公開データを引用した。

4. DDBJ の起源となるべき登録データ
最初にデータ入力が行われた D00001(N00001),最初に査定が完了しデータ構築が完成した D00004(N00004) が,DDBJ の起源となるべき最初の登録データであると述べた。
私は2つのデータから始原となるデータを選べと言われたならば,D00004(N00004) を指定する。なぜなら INSDC の登録データはアノテータの査定が完了し,公開できる状態になって初めて,データとしての存在意義が確定する。塩基配列データは公表されなければ,人類にとっての財産とはならない。公共の塩基配列データベースの使命を担うべく誕生したDDBJにとって,最初の公開可能データである D00004(N00004) こそが,DDBJ が担った使命を最初に果たしたデータであると言える。
DDBJ の活動は,20年で激変した。電話回線によるコンピュータ通信からインターネットへ変化し,登録データの手入力からインターネットを使用した WEB 登録システム SAKURA と大量登録システム (MSS) へと変化した。 DDBJ はゲノム科学,情報科学の発達と供に,時代の要請に応じて発展してきた。これは DDBJ が担う使命を認識した関係者の努力と,貴重なデータを登録して DDBJ を支え続けて頂いたデータ登録者や利用者の皆様の御協力の賜物に他ならない。B型インフルエンザ,大腸菌データから始まった小さなデータベースは,今やっと成人式を迎えた。今後も DDBJ の活動への御協力を,皆様に御願いしたい。

参考資料:
  *セカンダリーデータとは新規にアクセッション番号が発行され,その新規データに統合されたデータを指す。セカンダリーデータとして処理されると,セカンダリーデータのアクセッション番号で検索を行っても,統合されたデータが表示される様になる。

参考:http://www.ddbj.nig.ac.jp/sub/accession-j.html  
LOCUS       ECOPBPA      2936 bp ds-DNA             entered   02/18/87
DEFINITION  Escherichia coli pbpA gene encoding penicillin-binding protein,
            complete cds.
ACCESSION   N00001
KEYWORDS    penicillin-binding protein.
SOURCE      Escherichia coli DNA, clone pMA110.
  ORGANISM  Escherichia coli
            Prokaryota; Bacteria; Gram-negative facultatively anaerobic rods;
            Enterobacteriaceae.
REFERENCE   1  (base 1 to 2936)
  AUTHORS   Asoh,S., Matsuzawa,H., Ishino,F., Strominger,J.L.,
            Matsuhashi,M. and Ohta,T.
  TITLE     Nucleotide sequence of the pbpA gene and characteristics of the
            deduced amino acid sequence of penicillin-binding protein 2 of
            Escherichia coli K12
  JOURNAL   Eur J Biochem 160, 231-238 (1986)
COMMENT     The deduced sequence agreed with the NH-2 terminal sequence of PBP2
            purified from membranes, suggesting that PBP2 has no signal
            peptide.  The active-site serine residue for peptidoglycan
            transpeptidase of PBP2 was predicted to be Ser-330. One potential
            candidate for the promoter for the pbpA gene, a-35 sequence,
            TTGTCC(nucleotides 141-146), and a Pribnow box, TATACTG(nucleotides
            168-174), was found. These sequences also could be the promoter for
            the first and second open reading frames. The coding sequence of
            the pbpA gene is preceded by a possible Shine-Dalgarno sequence,
            AGTAG(nucleotides 1018-1022), there being twelve nucleotides
            spacing between the Shine-Dalgarno sequence and the initiation
            codon, ATG(nucleotides 1035-1037). The location of this sequence
            for ribosome binding is somewhat distant from the initiation codon.
            This may cause the low copy number (about 20 molecules) of PBP2 per
            cell.
FEATURES       from  to/span     description
    pept       1035     2936     PBP2
  SITES
    refnumbr      1        1     numbered 1 in [1]
    signal      141       34     consensus promoter sequence
    binding     296        5     ribosome binding site for ORF1
    ->ORF       324        1     unidentified ORF1 start
    binding     526        4     ribosome binding site for ORF2
    ORF<-       533        1     unidentified ORF1 end
    ->ORF       537        1     unidentified ORF2 start
    ORF<-      1004        1     unidentified ORF2 end
    binding    1018        5     ribosome binding site for PBP2
    ->pept     1035        1     PBP2 start
    pept<-     2936        1     PBP2 end
BASE COUNT      712 a    754 c    805 g    665 t
ORIGIN      SmaI site
        1 cccgggcagg ctgatattct ccgcagccag actttttccg ccagacacga ctttgtagaa
       61 attgttttac aaaaatggcg atgcaatctg cggcgcgggg tgggatgata gcccactttc
      121 gaaagccgat tcggcgacaa ttgtcccgaa atcgcctctg gttcaggtat actgacagac
      181 catttttatc tatttgattc acccaggggg aaaacttgca gggtaaagca ctccaggatt
      241 ttgttatcga caaaattgat gacctcaaag gtcaggacat catcgcctta gacgttcagg
      301 gcaaatccag catcaccgac tgcatgatca tctgtacggg tacgtccagc cgtcatgtta
      361 tgtccattgc tgaccacgtt gtgcaggagt ctcgcgcagc gggcctgtta ccgctcggcg
      421 tagaaggtga aaacagcgcc gactggattg tcgtggattt gggcgatgtg attgtccatg
      481 tcatgcagga agagagccgt cgcctgtatg aactggaaaa actctggagt taatgcgtga
      541 agctgcaact tgtcgccgtg ggaacgaaaa tgccggactg ggtacaaacc ggttttaccg
      601 agtacctgcg tcgttttccg aaagatatgc ccttcgagct gattgaaatt ccggccggaa
      661 aacgcggcaa gaatgcggac atcaagcgca tactcgacaa agagggtgag cagatgttgg
      721 cggccgcagg caaaaaccgc attgtcaccc tcgatattcc aggcaagccc tgggatacgc
      781 cgcagttagc cgctgagctg gaacgctgga agctggatgg tcgcgacgtc agtctactga
      841 ttggcgggcc tgaagggttg tcgcctgcct gtaaagcggc ggctgagcag agctggtcgc
      901 tgtcggcgct taccctcccc catccgctgg ttcgcgtgct ggtcgcagag agtctgtacc
      961 gggcgtggag catcaccacc aaccatcctt atcaccgtga gtgataaggg agctttgagt
     1021 agaaaacgca gcggatgaaa ctacagaact cttttcgcga ctatacggca gagtccgcgc
     1081 tgtttgtgcg ccgggcgctg gtcgcctttt tggggatttt gctgctgacc ggcgtgctta
     1141 tcgccaacct gtataatctg caaattgttc gctttaccga ctaccagacc cgctctaatg
     1201 aaaaccgcat taagctggtg cctatcgcgc ccagccgcgg cattatctac gatcgtaacg
     1261 gtatccctct ggccctcaac cgcactatct accagataga aatgatgccg gagaaagtcg
     1321 ataacgtgca gcaaacgctg gacgctttgc gcagcgtggt agatctgacc gatgacgata
     1381 ttgctgcatt ccgaaaagag cgcgcacgtt cacaccgttt cacctctatt ccggtgaaaa
     1441 ctaacctgac cgaagtacaa gtagctcgct ttgccgtcaa tcagtaccgt tttccgggtg
     1501 tcgaagttaa aggctataaa cgtcgttact atccttacgg ttcggcgttg acccacgtca
     1561 tcggctatgt gtcgaaaatc aacgataaag acgtcgaacg cctgaataat gacggcaaac
     1621 tggccaacta tgcggcaacg catgatatcg gtaagctggg cattgagcgt tactatgaag
     1681 atgtgctgca cggtcagacc ggttatgaag aggttgaagt taacaaccgt gggcgtgtta
     1741 ttcgccagtt aaaagaagta ccaccgcaag ccggacacga tatttacctg acgctggatc
     1801 tcaaactcca gcaatatatt gaaacgctgc tggcgggtag ccgcgcagct gtggtagtca
     1861 ccgatccgcg tacaggtggg gtgctggcgc tggtttccac gcctagttat gacccaaact
     1921 tgtttgttga cggtatctcc agcaaagatt attccgcctt gttgaacgat ccgaatacac
     1981 cgctggtgaa ccgcgccaca cagggggttt atcctcccgc gtctacagtt aaaccctatg
     2041 tggcggtttc ggcattgagc gccggggtga tcacgcgcaa tacgacgctg tttgacccag
     2101 gctggtggca actgccaggt tcggaaaaac gttatcgtga ctggaaaaaa tggggccacg
     2161 ggcgtctgaa tgtcacaaga tcgctggaag aatctgcgga taccttcttc tatcaggtgg
     2221 cctacgatat ggggatcgat cgcctctccg aatggatggg taaattcggt tatggtcatt
     2281 acaccggtat cgacctggcg gaagaacgtt ccggcaacat gcctacccgc gaatggaaac
     2341 agaaacgctt taaaaaaccg tggtatcagg gtgacaccat tccggttggt atcggtcagg
     2401 gttactggac agcgacccca atccagatga gtaaggcact gatgatcctg attaatgacg
     2461 gtatcgtgaa ggttcctcat ttgctgatga gcaccgccga agacggcaaa caggtgccat
     2521 gggtacagcc gcatgaaccg cccgtcggcg atattcattc cggttactgg gagctggcga
     2581 aagacggtat gtacggtgtt gctaaccgcc ctaacggtac ggcgcataaa tactttgcta
     2641 gcgcaccgta caaaattgcg gcgaaatccg gtaccgctca ggtcttcggt ctgaaagcga
     2701 acgaaaccta taatgcgcac aaaattgccg agcgtttacg tgaccacaaa ctgatgaccg
     2761 cctttgcgcc atacaacaat ccgcaagtgg ctgtcgccat gattctggag aacggtggtg
     2821 cgggtccggc ggttggtaca ctgatgcgcc agatcctcga ccacattatg ctgggtgata
     2881 acaacaccga tctgcctgcg gaaaatccag cggttgccgc agcggaggac cattaa
//
 
 
LOCUS       FLBL40PB1    2381 bp ss-RNA             entered   01/26/87
DEFINITION  Influenza B/lee/40 virus, polymerase PB1, complete genome.
ACCESSION   N00004
KEYWORDS    Influenza B virus; PB1; PB1 protein; RNA polymerase;
            complete genome; polymerase.
SOURCE      Influenza B/Lee/40, virion genome RNA from egg-grown virus or mRNA
            from virus-infected HeLa cells.
  ORGANISM  Influenza type B
            Viridae; ss-RNA enveloped viruses; Orthomyxoviridae.
REFERENCE   1  (base 1 to 2381)
  AUTHORS   Kemdirim,S., Palefsky,J. and Briedis,D.J.
  TITLE     Influenza B virus PB1 protein: Nucleotide sequence of the genome
            RNA segment predicts a high degree of structural homology with the
            corresponding influenza A virus polymerase protein
  JOURNAL   Virology 152, 126-135 (1986)
COMMENT     PB1 genome RNA segment is 2368 nucleotides. Sequence comparison
            between the influenza A and B virus PB1 proteins reveals that they
            share the highest homology (61% amino acid homology, reported in
            [1]) yet seen between proteins encoded by these disparate viruses.
            In [1], first non-viral 13 nucleotides are presumably derived from
            the 5' end of an influenza mRNA to which they had been transferred
            from a cellular mRNA during the transcription initiation process of
            virus mRNA synthesis.
FEATURES       from  to/span     description
    RNA     <     1       13     non-viral HeLa mRNA
    pept         34     2292     PB1 peptide (497th a may be t to code leu.)
    RNA        2381       14 (c) polymerase PB1 complete genome
  SITES
    mRNA<-       13        1     non-viral HeLa mRNA end
    ->virion     14        1 (c) polymerase PB1 genomic RNA end
    refnumbr     14        1     numbered 1 in [1]; zero not used
    ->pept       34        1     PB1 cds start
    conflict    497        1     probably t to code leu
    pept<-     2292        1     PB1 cds end
    site       2365        1     polyadenylation site
    virion<-   2381        1 (c) polymerase PB1 genomic RNA start
BASE COUNT      868 a    406 c    529 g    578 t
ORIGIN      13 nucleotide upstream of 3' end of the virion genome RNA segment
        1 aggatctagc agcagcagaa gcggagcttt aagatgaata taaatccata ttttcttttc
       61 atagatgtac ctatacaggc agcaatttca acaacattcc catacaccgg tgttccccct
      121 tattctcatg gaacgggaac aggctacaca atagacaccg tgattagaac acacgagtac
      181 tcaaacaagg gaaaacaata catttctgat gttacaggat gtgtaatggt agatccaaca
      241 aatgggccat tacccgaaga caatgaaccg agtgcctatg cacaattgga ttgtgttctg
      301 gaggctttgg atagaatgga tgaagaacat ccaggtctgt ttcaagcagg gtcacagaat
      361 gccatggagg cactaatggt cacaacagtg gacaaattga ctcaggggag acagaccttt
      421 gattggacgg tgtgtagaaa ccaacctgct gcaacggcac tgaacacaac aataacctct
      481 tttaggttga atgattaaaa tggagccgac aagggtggat tagtgccctt ttgccaagat
      541 atcattgatt cattagacaa acctgaaatg attttcttca cagtaaagaa tataaagaaa
      601 aaattgcctg ctaaaaacag aaagggtttc cttataaaaa gaatacctat gaaggtaaaa
      661 gacagaataa caagagtgga atacatcaaa agagcattat cattaaacac aatgactaaa
      721 gatgctgaaa gaggcaaact aaaaagaaga gcaattgcca ccgctgggat acaaatcaga
      781 ggatttgtat tagtagttga aaacttggct aaaaatatct gtgaaaatct agagcaaagt
      841 ggtttacccg taggtggaaa cgaaaagaag gccaaactat caaatgcagt ggctaaaatg
      901 ctcagtaatt gtccaccagg agggatcagt atgactgtga caggagacaa tactaaatgg
      961 aatgaatgct taaatccaag aatctttttg gctatgactg aaagaataac cagagacagc
     1021 ccaatttggt tccgggattt ttgtagtata gcaccggtct tgttctccaa taaaatagct
     1081 agattgggaa aagggttcat gataacaagt aaaacaaaaa gcctaaaagc tcaaatacct
     1141 tgtcccgatc tgtttaatat accattagaa agatataatg aagaaacaag ggcaaaactg
     1201 aaaaagctaa aacctttctt caatgaagaa ggaacggcat ctctttcgcc aggaatgatg
     1261 atgggaatgt ttaatatgct atctacagta ttaggagtag ccgcactagg gataaaaaac
     1321 attggaaaca aagaatactt atgggatgga ctgcagtctt cggatgattt tgctctgttt
     1381 gttaatgcaa aagatgaaga gacatgtatg gaaggaataa acgattttta ccgaacatgt
     1441 aagctattgg gaataaacat gagcaaaaag aaaagttact gtaatgaaac tgggatgttt
     1501 gaatttacca gcatgtttta cagagatgga tttgtatcta attttgcaat ggaactccct
     1561 tcatttggag tcgctggagt gaatgaatca gcagacatgg caataggaat gacaataata
     1621 aagaacaata tgatcaacaa tgggatgggc ccagcaacgg cacaaacagc catacaatta
     1681 ttcatagctg actatagata cacctacaaa tgccacaggg gagattccaa agtggaaggg
     1741 aagagaatga aaattataaa ggagctatgg gaaaacacta aaggaagaga tggtctatta
     1801 gtagcagatg gtgggcctaa tctttacaat ttgagaaacc tgcatattcc agaaataata
     1861 ttaaaataca acataatgga ccctgagtac aaaggacggt tactgcatcc tcaaaatccc
     1921 tttgtaggac atttgtctat tgagggtatc aaagaagcag atataacacc tgcacatggc
     1981 ccaataaaga aaatggacta cgatgcggta tctggaactc atagttggag aaccaaaagg
     2041 aacagatcta tactaaacac tgatcagagg aacatgattc ttgaggaaca atgctacgct
     2101 aagtgttgca acctttttga ggcttgcttt aacagtgcgt catacaggaa accagtaggc
     2161 cagcacagca tgcttgaagc tatggcccac agattaagaa tggatgcacg actggactat
     2221 gagtcaggaa ggatgtcaaa agaggatttc gaaaaagcaa tggctcacct tggtgagatt
     2281 gggtacatgt aagctccgga aatgtctatg gggttattgg tcatcgttga atacatgcgg
     2341 tgcacaaatg attaaaatga aaaaaggctc gtgtttctac t
//


 ■DDBJ リリース 70.0 の訂正版 70.1 公開 
DDBJ 定期リリース70.0(2007年6月公開)中にフォーマットの不正なデータが見つかりましたので,2007年7月24日に,訂正版 70.1 を公開しました。

訂正版リリース: DDBJ release 70.1 (2007年7月24日公開)
元のリリース: DDBJ release 70.0 (2007年6月29日公開)
不正部分: Feature Table format
該当アクセッション番号:以下の 53 エントリ
  • AJ570278 - AJ570281,  AJ570283 - AJ570292,
  • AJ570294 - AJ570303,  AJ570305,  AJ570468
  • AJ570470 - AJ570479,  AJ570481 - AJ570490,
  • AJ570492 - AJ570495,,  X06674,  X06675,  AJ965256
修正されたファイル: ddbjbct1.seq
  ddbjhum5.seq
  ddbjinv1.seq
参照ページ:FTP による定期リリースおよび新着データのダウンロードサイト

ご迷惑をおかけしましたことをお詫びいたします。

 ■第6回 日韓中バイオインフォマティクストレーニングコース参加手記 
2007年3月27日から30日まで,中国・上海交通大学にて第6回日韓中バイオインフォマティクス・トレーニングコースが開催され,日本からも10名の受講生が参加しました。
前回メールマガジンに引き続き,受講者による参加報告レポートをご紹介します。今回は, Fernando Encinas Ponce さんよりご寄稿いただきました。

日韓中バイオインフォマティクス・トレーニングコースの詳細はこちらをご覧下さい。

************************************************************************************
Fernando Encinas Ponce
Researcher at Laboratory for Gene-Expression Analysis, CIB-DDBJ, NIG

I.Introduction
Since 2002, first Korea and Japan and later including China, the three countries have been organizing an annual bioinformatics training course. The initial idea to promote the field of bionformatics, specially among young researchers, has become a very well established and formal “short-term” bioinformatics education on the basis that nowadays application of informatics along with diverse disciplines such us mathematics, statistics, chemistry and others are essential to carry out any research project in genomics, proteomics and other related fields in biology.
This year, The Sixth Sino-Japan-Korea Bioinformatics Training Course was held in the astonishing city of Shanghai under the organization of Shanghai Center for Bioinformation Technology (SCBIT), the National Institute of Genetics (NIG, Japan) and the Korean Research Institute of Bioscience and Biotechnology (KRIBB).
The following is a brief report on the activities and contents of this year.

II.General Information
The 6th J-K-C Bioinformatics training course - Location: The training course took place in installations of Shanghai Jiaotong University, Minhang Campus in Shanghai, China. All participants were impressed by the splendid view of the campus and satisfied with all the facilities it includes, among others, the Guest House of the Academic Center were we stayed during the course.
At the moment of registration every participant was provided with all material necessary for the course and a kind gift from the organizers.
- Time: Basically the training was a 20 hour intensive course that extended from March 27th. to March 30th. Every day the sessions started at 8:00 and lasted until 18:45 with a main brake of 60 minutes for lunch.
- Participants: The training course consisted of three different groups of participants:
The organization group whose members were always kindly open to help and solve any inquire from the attendants, 10 lecturers from the three countries who were responsible to lead and present every session and 30 students (10 per country) whose background either related to biology or not, was not a limitation to make the best of this opportunity to experience the “taste” of the bioinformatics world.

III. Structure and contents
The 6th J-K-C Bioinformatics training course The course was divided by sessions, each at a time consisted of theoretical and practical contents. The theoretical content of each session was aimed to include in-depth coverage of subjects that support the development of research projects using genome-scale information or the construction of specific databases for storing specific kinds of data or if it was the case, the design of new software tools used for retrieval and analysis.
Immediately after, during the practical sessions, every student provided with a personal computer was encouraged to explore and use the methods and tools introduced by the lecturers using real biological examples.
Following is a brief summary of the topics covered during the training course:
  • First day: Prof. Jong Bhak (KRIBB) made an interesting introduction to the field of bioinformatics and then described with many examples the perspectives of research on Single Nucleotide Polymorphism (SNP's) as the major genetic variation at genome level.
    Following the first session, Prof. Zhiwei Cao (SCBT) reviewed some programs and methods used in genomic research such as gene prediction and gene annotation and described the strategies used to identify genes involved in microbial pathogenesis.
    Prof. Naruya Saitou (NIG) was in charge of the third session. He explained about the methods used to construct phylogenetic trees for comparative genomics and introduced many of his projects aimed to elucidate diverse evolutionary processes at sequence, genome and species level.
    The closing session corresponding to the first day was presented by Prof. Yang Zhong from Fudan University. He made a concise review to the fundamentals of molecular evolution and during the practical session checked the packages developed to carry out phylogenetic analysis, specifically those used to detect positive selection between two sequences.
  • Second day: The second day of the training course started with Prof. Haruki Nakamura from Osaka University who introduced the data, file formats, search engine and software developed at Protein Data Bank of Japan (PDBj). He also described the role of PDBj within the world wide PDB. During the practical session we had the opportunity to access PDBj website and test some applications available there.
    Prof. Sangsoo Kim from Soongsil University started immediately after and his presentation was aimed to stress the need and importance to integrate the huge amount of data accumulated in genomics and proteomics within a systems biology framework. He introduced many programs developed for this purpose and thus the practical session consisted in using a software package designed to integrate and analyze diverse data.
    Starting from sequence retrieval to the use of molecular visualization tools, Prof. Sanguk Kim from Pohang University of Science and Technology explained the methods, use and perspectives of structural bioinformatics as a promising discipline to study membrane proteins and therapeutic development. Different applications for the identification of functional and structural analysis of proteins were introduced during the practical session.
    Prof. Yoshio Tateno (NIG) closed the second day of the course. He focused his talk on the fundamentals of population genetics, the role of mutations as the driven force for evolution and the process and factors that govern changes in gene frequency. As a practical session, various related equations and exercises were solved during the class.
  • Third day: This was our last day of training. A mixture of feelings was invading us. On one hand the satisfaction for having the work close to finish successfully, on the other hand, the sadness to leave behind such a beautiful experience.
    Prof. Takashi Gojobori (NIG) started his lecture emphasizing the need to develop a new integrative biology way of thinking and research with all the opportunities provided by the huge amount of data available. Then he showed many examples of his work on different projects in comparative genomics and genome evolution.
    Finally, Prof. Yu Shyr from Vanderbilt University was in charge of the very last session of the training course where he presented an in-depth explanation about the methods used for experimental designing, quality control assessment and analysis of high-throughput assays that render high dimensional data.

IV. Conclusions
The coverage of topics during the three days of activities was really broad and complete. This is quite important if we agree that bioinformatics is a very dynamic and competitive field that demands continuous learning, practice and updating. Training courses such as this constitute fundamental steps in our formation as students or if we want to start a new project in this challenging field.
Useless is to mention that in my case as an international student in Japan, I felt completely granted to participate in this course not only for the benefits to my current work but also for the perspectives in the field of bioinformatics in my country.
I would like to emphasize that the friendly environment surrounding the classes, the collaborative attitude of organizers and the kind consideration of lecturers to discuss with the students made from this course a complete success and a memorable experience for all of us.

Thank you Shanghai 2007!!!
The 6th J-K-C Bioinformatics training course



  ddbjmag@ddbj.nig.ac.jp

この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい:
発行: 日本 DNA データバンク (DDBJ)
  大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111
Last modified: Oct. 07, 2011