|
■残暑お見舞い申し上げます
記録的猛暑が続いていますが,暑さに負けずに頑張りましょう。食欲の秋,スポーツの秋,勉強の秋はもうすぐそこまで来ています。隔月公開のDDBJ メールマガジン第33号 web 版です。
までメールをお送り下さい。
DDBJ では,高速キーワード検索システム ARSA(All-round Retrieval of Sequence and Annotation) の試験運用を終えて 2007年6月より,いよいよ本運用を始めました。
ARSA は,下記のような特徴を有しています。
さらに,このたび,これまでの試験運用の間のご意見をもとに次の機能を付加しました
DDBJ では,今後さらに,皆様からのご意見をもとにして,より使いやすく強力なキーワード検索システムを目指して機能拡張を進めていきます。ARSA にて 「Your Comment」 をクリックして, 批判とご提案をご記入下さい。 改訂概要個人情報保護,および,迷惑メール増加などへの対応としまして,DDBJ では,DDBJ が登録を受け付けたエントリに関しましては,E-mail アドレスと電話番号,FAX 番号を非表示化いたします。DDBJ では,ほぼ全ての DDBJ が過去に登録を受け付けたエントリを改訂します。ただし,GenBank,EMBL が受け付けたエントリに関しましては修正しません。この改訂は,2007年12月末,DDBJ 定期リリース72 において完了予定です。 これまで,データベース利用者から各配列の登録者に対する連絡は対象フラットファイルを参照することで自由に行うことが可能でしたが,この改訂により,一般的には,この連絡が取り難くなります。研究上の問題に関して,各配列の登録者への連絡が必要な場合はメッセージを転送いたしますので,お手数ですが,別途設置予定の問い合わせフォームからご連絡ください。その際は簡単な理由(「clone 譲渡を希望」など)を書き添えてください。 申し訳ございませんが,ご理解とご協力をお願いいたします。 改訂詳細現在,登録者の情報は一般に,REFERENCE 1 の JOURNAL 行に下記のように示されています。
DDBJ への既登録分に関しましては,原則,一括で上記
のType 1の様に非表示としますが,表示しておく必要がある場合は, にご連絡いただければ,個別に対応いたします。表示・非表示は「E-mailアドレス」「電話番号」「FAX番号」それぞれ個別に指定可能です。
DDBJ リリース70 で CON エントリが 983,699 から 3,932,751 と大幅に増加しました。
これは,J. Craig Venter Instituteから登録された,4,087,206 エントリが 2007年4月に追加されたためです。
これらのデータは,海洋メタゲノム研究の成果であり,以下の論文で詳細が紹介されています。
DDBJ の XML Central of DDBJ ページの Web サービスを使うと,ブラウザーを通してコピー&ペーストの煩雑な手作業の繰り返しを自動化できます。Java や Perl のプログラムで Web サービスのメソッドを呼び出すモジュールを作っておいて,それをワークフローとして組み立てることができます。また,後々モジュールを差し替えることも簡単にできます。DDBJ の Web サービスではこれまで SOAP(Simple Object Access Protocol) を使ってきましたが REST を介したサービスも拡張していきます。
DDBJ, EMBL-Bank/EBI, GenBank/NCBI の3大国際 DNA データバンクは,国際塩
基配列データベース共同構築の運営・推進を図るために,国際実務者会議を年
1回開催しています。
2007年は英国の EBI で5月21日-23日に開催され,DDBJ からは7名のスタッフが
国際実務者会議に出席しました。DDBJ, EMBL-Bank, GenBank 三極の活動の年次
報告が行なわれた後,INSDC; International Nucleotide Sequence Database
Collaboration 運用上の実務的な問題を以下のように討論しました。
検討事項と今後の課題
Feature と Qualifier の改訂
以下に挙げる項目は,特に断り書きがない限り,2007年10月のFeature Table Definition の改訂後に適用されます。
DDBJ 本格活動20周年を迎えて
舘野義男 今年(2007年)の7月でDDBJ が本格活動してから20年目を迎えることになった。ここで本格活動開始と,はDDBJ が収集・編集した DNA データを世界に向けて公開(リリースと呼ぶ)を開始したこととする。リリース1は,1987年7月公開され,その内容は僅か66エントリー,108,970塩基だった。これらのデータはDDBJ が収集・編集したデータのみであり,1991年7月のリリース9まではすべて DDBJ のみのデータを公開していた。この頃,DDBJ の責任者である五條堀孝さんの提案で,この次のリリースから EMBL Bank や GenBank のデータも含めようということになった。その結果,1992年1月に公開されたリリース10は9に比べて一挙に50倍以上のデータ量になった。当時DDBJのスタッフの一人だった林田秀宣さんが,「メダカが鯨を呑み込むようなものだ」と言ったのを思い出す。 DDBJ の本格活動以前に,我が国の DNA データバンクの設立に向けて種々の活動が始まっていた。これらの活動は,私達の諸先輩がこのデータバンク設立の重要性を十分に認識され,ご自身の研究を犠牲にしてまで遂行されたと聞いている。この稿では今は余り知られていない,これらの活動の一端を紹介したい。活動の中心的存在だった元東大・医科研教授の内田久雄先生が数日前に逝去され,この思いを強くしている。 公共 DNA データバンクは,1980年まずヨーロッパでの統合バンクを設立すべく,ドイツ,ハイデルベルグの EMBL 内にその準備室が組織された。この約2年後,筆者はマックスプランク研究所を訪問することがあり,ついでに近くの準備室にも足を延ばした。僅か3,4名ほどが従事する小さな組織だった。また同じ頃,アメリカに GenBank が設立された。今年は EMBL Bank の本組織設立25周年にあたり,EBI で開催された第20回DNAデータバンク国際実務者会議の期間中にその記念式典が行われた。筆者も式典に参加したが,多くの EBI の参加者を目の当たりにして,隔世の感をもつとともに心からお祝いの気持ちを伝えた。実は,我が国のDNAデータバンクの設立は,欧米の両バンクからの働きかけが契機となっている。 準備室の組織化の直後,まず1980年8月EMBLから東大・医科研の内田教授に働きかけがあった。次いで,1982年9月,EMBL と GenBank の代表者の連名で国際 DNA データバンクへの参加要請があった。要請先は,当時科学技術DNA研究推進委員長をしておられた東大の和田昭允教授である。1983年,この要請を受けて,科研費特定研究「遺伝情報システム編成」(代表者小関治男京大教授)が認可され,緊急措置として,京大・化研の大井龍夫教授の研究室に「仮センター」が委託された。次いで,1983年8月,「DNAデータバンク運営委員会」が設置され,内田教授が委員長に選ばれた。この委員会には,和田教授,小関教授,大井教授,高浪満京大教授,丸山毅夫遺伝研教授,宮田隆九大教授,榊佳之九大教授,堀寛名大教授(いずれも当時の職)らが委員として参加している。この中には,内田先生をはじめ故人となられた方々もおられる。 1984年2月DNAデータバンク運営委員会において,我が国を代表し欧米のバンクと国際共同構築を行うDNAデータバンクを遺伝研に設立することが決まった。また,その名を DNA Data Bank of Japan (DDBJ) とすることとした。その後1986年文部省から DDBJ に予算措置が講じられた。1987年2月ハイデルベルグで workshop が開かれ,内田教授,丸山教授,金久実京大教授が参加した。この workshop で,DNAデータバンクを国際的な立場から助言勧告する国際諮問委員会の設置が決定された。そして,1988年2月アメリカ,ベセスダで第一回DNAデータバンク国際諮問委員会,7月ハイデルベルグで第一回 DNA データバンク国際実務者会議が開催された。両会議には DDBJ を運営することになった宮澤三造さんた出席した。1990年3月には三島プラザホテルで第三回国際諮問委員会が開催され,欧米バンクの関連者と富澤純一所長を始めとする遺伝研の教員が出席したが,筆者も列席したことを覚えている。そして,この年五條堀さんが宮澤三造さんの後を継いでDDBJを運営することになり,筆者も加わることになった。また,1996年4月には国際諮問委員会と国際実務者会議が遺伝研で開催されたが,この期間中にDDBJ10周年記念式典ならびに祝賀会が,両会議出席者,文部省関係者,遺伝研運協・評議委員,遺伝研教職員らの参加を得て盛大に開催された。 この20年の間,辞められた方々を含めて実に多くの方々が DDBJ の仕事に携わってこられている。その全員の方々と共に20周年を祝いたいと思う。(終) 2007年7月 参考:
DDBJ リリース20周年を機に,DDBJ のアノテータが,DDBJの最初の登録データを調査しました。
長年,DDBJ の一番最初のデータは謎でしたが、今回の調査で明らかになりました。調査には DDBJ リリース1とリリース2を使用しました。
「DDBJ の起源 "Origin of DDBJ" -最初の登録データ-」 青野 英雄(DDBJアノテータ) DDBJ がリリースデータの提供を始めて20年が経過した。リリース1は DDBJ の登録データのみで構成され,1987年7月に66エントリーが提供された。リリース2は1988年1月に142エントリーが収録され,1992年1月のリリース10からは59317エントリーの提供が行われ EMBL/GenBank のデータも含まれる様になった。最新のリリース70では7280万エントリーとなり,リリース1から比べるとエントリー数は110万倍に増加している。この巨大なデータを有する国際塩基配列データベース(INSDC)の一翼をなす DDBJ において,起源となるべき DDBJ の最初の登録データについて報告したい。1. DDBJ の最初の登録データ DDBJ の作業者が最初に入力を行ったデータは,D00001(N00001) であった。記録によると1986年12月18日に,大腸菌の penicillin-binding protein 2 のデータ入力が開始された。リリース1で提供されたデータであり,N00001 のアクセッション番号が割り振られた。その後リリース2で N00001 は D00001 のセカンダリーデータ(*)となり,現在は以下の様に X04516 のセカンダリデータとなっている。 ----------------------------------------------------------------------------- DEFINITION E. coli pbpA gene for penicillin-binding protein (PBP)2. ACCESSION X04516 D00001 N00001 リリース1で提供された N00001 のデータ -----------------------------------------------------------------------------また入力データについて査定が完了し,最も早く公開できる状態になったデータは,D00004(N00004) であった。記録によると1987年1月26日に査定が完了している。B型インフルエンザの PB1 polymerase protein のデータであり,リリース1で N00004 のアクセッション番号が割り振られた。その後,リリース2で以下の様に D00004 のセカンダリーデータとなっている。
-----------------------------------------------------------------------------
DEFINITION Influenza B virus (B/Lee/40) mRNA for PB1 polymerase protein,
complete cds.
ACCESSION D00004 N00004
リリース1で提供された N00004 のデータ
-----------------------------------------------------------------------------
2. DDBJ のリリース1現在のアクセッション番号の発行は,登録者による塩基配列データ登録,登録データの査定,アクセッション番号の通知という流れになっている。配列に関する論文を投稿する際には INSDC への登録が義務付けられており,論文にはアクセッション番号が引用されることとなる。しかし DDBJ 活動当初のデータ登録は,現在とは逆の形態をとっていた。当時は DNA データの収集に主眼が置かれており,作業者が論文を参照して塩基配列を手で入力を行い,論文内容からアノテーション情報を抽出しデータの格納・査定を行い,データベースを構築していた。この作業を Journal Scan といい,論文が出版された後にアクセッション番号の発行が行われた。 D00001(N00001) および D00004(N00004) を含むリリース1 データは,全て Journal Scan のデータである。 DDBJ の数名のスタッフが手でデータ入力を行い,完成させたのがリリース1 である。このリリース1 のデータ量は GenBank および EMBL の約l00分の1に過ぎなかった。しかし現在は,DDBJ のエントリー数においては EMBL に勝る状態にまで至っている。 3. アノテーションの記述法の変化 現在のアノテーションは,DDBJ/EMBL/GenBank Feature Table Definition(FT-doc) に従い注釈されている。しかし1987年当時のリリース1 のデータでは,アノテーションの記述は現在とは異なる記述方法がなされていた。下記に D00001(N00001)とD00004(N00004) のアノテーションを抜粋した。
-----------------------------------------------------------
D00001(N00001)
FEATURES from to/span description
pept 1035 2936 PBP2
SITES
refnumbr 1 1 numbered 1 in [1]
signal 141 34 consensus promoter sequence
binding 296 5 ribosome binding site for ORF1
->ORF 324 1 unidentified ORF1 start
binding 526 4 ribosome binding site for ORF2
ORF<- 533 1 unidentified ORF1 end
->ORF 537 1 unidentified ORF2 start
ORF<- 1004 1 unidentified ORF2 end
binding 1018 5 ribosome binding site for PBP2
->pept 1035 1 PBP2 start
pept<- 2936 1 PBP2 end
D00004(N00004)
FEATURES from to/span description
RNA < 1 13 non-viral HeLa mRNA
pept 34 2292 PB1 peptide (497th a may be t to code leu.)
RNA 2381 14 (c) polymerase PB1 complete genome
SITES
mRNA<- 13 1 non-viral HeLa mRNA end
->virion 14 1 (c) polymerase PB1 genomic RNA end
refnumbr 14 1 numbered 1 in [1]; zero not used
->pept 34 1 PB1 cds start
conflict 497 1 probably t to code leu
pept<- 2292 1 PB1 cds end
site 2365 1 polyadenylation site
virion<- 2381 1 (c) polymerase PB1 genomic RNA start
-----------------------------------------------------------
リリース1のアノテーションでは Feature 項目(塩基配列上の特徴),from to(Feature 開始[終了]位置),span(Feature 領域塩基数),description (Feature 内容)で記述されていた。また各 Feature の位置情報は開始位置のみで,終了位置については span 情報で開始位置から数えて何塩基目までかという方法で指定されていた。塩基配列の由来生物情報を示す source feature もなく,Feature の特性を記述する Qualifier も存在していなかった。当時のアノテーション情報は,直感的に記述内容を理解することが難解な事は否めない。FT-doc の雛形は1989年に制定され,DDBJ/EMBL/GenBank 共通のアノテーションの記述方法に変更されていくこととなる。毎年,国際実務者会議で検討が行われ,FT-doc は改定され続けている。現在のアノテーションと比較すると20年の DDBJ の活動の中で記述方法がユーザーへの利便性,最新の生物学的知見に合致する様に,より洗練されていったことが窺がえる。下記に X04516(D00001, N00001) と D00004(N00004) の現在の公開データを引用した。 4. DDBJ の起源となるべき登録データ 最初にデータ入力が行われた D00001(N00001),最初に査定が完了しデータ構築が完成した D00004(N00004) が,DDBJ の起源となるべき最初の登録データであると述べた。 私は2つのデータから始原となるデータを選べと言われたならば,D00004(N00004) を指定する。なぜなら INSDC の登録データはアノテータの査定が完了し,公開できる状態になって初めて,データとしての存在意義が確定する。塩基配列データは公表されなければ,人類にとっての財産とはならない。公共の塩基配列データベースの使命を担うべく誕生したDDBJにとって,最初の公開可能データである D00004(N00004) こそが,DDBJ が担った使命を最初に果たしたデータであると言える。 DDBJ の活動は,20年で激変した。電話回線によるコンピュータ通信からインターネットへ変化し,登録データの手入力からインターネットを使用した WEB 登録システム SAKURA と大量登録システム (MSS) へと変化した。 DDBJ はゲノム科学,情報科学の発達と供に,時代の要請に応じて発展してきた。これは DDBJ が担う使命を認識した関係者の努力と,貴重なデータを登録して DDBJ を支え続けて頂いたデータ登録者や利用者の皆様の御協力の賜物に他ならない。B型インフルエンザ,大腸菌データから始まった小さなデータベースは,今やっと成人式を迎えた。今後も DDBJ の活動への御協力を,皆様に御願いしたい。 参考資料: *セカンダリーデータとは新規にアクセッション番号が発行され,その新規データに統合されたデータを指す。セカンダリーデータとして処理されると,セカンダリーデータのアクセッション番号で検索を行っても,統合されたデータが表示される様になる。 参考:http://www.ddbj.nig.ac.jp/sub/accession-j.html
LOCUS ECOPBPA 2936 bp ds-DNA entered 02/18/87
DEFINITION Escherichia coli pbpA gene encoding penicillin-binding protein,
complete cds.
ACCESSION N00001
KEYWORDS penicillin-binding protein.
SOURCE Escherichia coli DNA, clone pMA110.
ORGANISM Escherichia coli
Prokaryota; Bacteria; Gram-negative facultatively anaerobic rods;
Enterobacteriaceae.
REFERENCE 1 (base 1 to 2936)
AUTHORS Asoh,S., Matsuzawa,H., Ishino,F., Strominger,J.L.,
Matsuhashi,M. and Ohta,T.
TITLE Nucleotide sequence of the pbpA gene and characteristics of the
deduced amino acid sequence of penicillin-binding protein 2 of
Escherichia coli K12
JOURNAL Eur J Biochem 160, 231-238 (1986)
COMMENT The deduced sequence agreed with the NH-2 terminal sequence of PBP2
purified from membranes, suggesting that PBP2 has no signal
peptide. The active-site serine residue for peptidoglycan
transpeptidase of PBP2 was predicted to be Ser-330. One potential
candidate for the promoter for the pbpA gene, a-35 sequence,
TTGTCC(nucleotides 141-146), and a Pribnow box, TATACTG(nucleotides
168-174), was found. These sequences also could be the promoter for
the first and second open reading frames. The coding sequence of
the pbpA gene is preceded by a possible Shine-Dalgarno sequence,
AGTAG(nucleotides 1018-1022), there being twelve nucleotides
spacing between the Shine-Dalgarno sequence and the initiation
codon, ATG(nucleotides 1035-1037). The location of this sequence
for ribosome binding is somewhat distant from the initiation codon.
This may cause the low copy number (about 20 molecules) of PBP2 per
cell.
FEATURES from to/span description
pept 1035 2936 PBP2
SITES
refnumbr 1 1 numbered 1 in [1]
signal 141 34 consensus promoter sequence
binding 296 5 ribosome binding site for ORF1
->ORF 324 1 unidentified ORF1 start
binding 526 4 ribosome binding site for ORF2
ORF<- 533 1 unidentified ORF1 end
->ORF 537 1 unidentified ORF2 start
ORF<- 1004 1 unidentified ORF2 end
binding 1018 5 ribosome binding site for PBP2
->pept 1035 1 PBP2 start
pept<- 2936 1 PBP2 end
BASE COUNT 712 a 754 c 805 g 665 t
ORIGIN SmaI site
1 cccgggcagg ctgatattct ccgcagccag actttttccg ccagacacga ctttgtagaa
61 attgttttac aaaaatggcg atgcaatctg cggcgcgggg tgggatgata gcccactttc
121 gaaagccgat tcggcgacaa ttgtcccgaa atcgcctctg gttcaggtat actgacagac
181 catttttatc tatttgattc acccaggggg aaaacttgca gggtaaagca ctccaggatt
241 ttgttatcga caaaattgat gacctcaaag gtcaggacat catcgcctta gacgttcagg
301 gcaaatccag catcaccgac tgcatgatca tctgtacggg tacgtccagc cgtcatgtta
361 tgtccattgc tgaccacgtt gtgcaggagt ctcgcgcagc gggcctgtta ccgctcggcg
421 tagaaggtga aaacagcgcc gactggattg tcgtggattt gggcgatgtg attgtccatg
481 tcatgcagga agagagccgt cgcctgtatg aactggaaaa actctggagt taatgcgtga
541 agctgcaact tgtcgccgtg ggaacgaaaa tgccggactg ggtacaaacc ggttttaccg
601 agtacctgcg tcgttttccg aaagatatgc ccttcgagct gattgaaatt ccggccggaa
661 aacgcggcaa gaatgcggac atcaagcgca tactcgacaa agagggtgag cagatgttgg
721 cggccgcagg caaaaaccgc attgtcaccc tcgatattcc aggcaagccc tgggatacgc
781 cgcagttagc cgctgagctg gaacgctgga agctggatgg tcgcgacgtc agtctactga
841 ttggcgggcc tgaagggttg tcgcctgcct gtaaagcggc ggctgagcag agctggtcgc
901 tgtcggcgct taccctcccc catccgctgg ttcgcgtgct ggtcgcagag agtctgtacc
961 gggcgtggag catcaccacc aaccatcctt atcaccgtga gtgataaggg agctttgagt
1021 agaaaacgca gcggatgaaa ctacagaact cttttcgcga ctatacggca gagtccgcgc
1081 tgtttgtgcg ccgggcgctg gtcgcctttt tggggatttt gctgctgacc ggcgtgctta
1141 tcgccaacct gtataatctg caaattgttc gctttaccga ctaccagacc cgctctaatg
1201 aaaaccgcat taagctggtg cctatcgcgc ccagccgcgg cattatctac gatcgtaacg
1261 gtatccctct ggccctcaac cgcactatct accagataga aatgatgccg gagaaagtcg
1321 ataacgtgca gcaaacgctg gacgctttgc gcagcgtggt agatctgacc gatgacgata
1381 ttgctgcatt ccgaaaagag cgcgcacgtt cacaccgttt cacctctatt ccggtgaaaa
1441 ctaacctgac cgaagtacaa gtagctcgct ttgccgtcaa tcagtaccgt tttccgggtg
1501 tcgaagttaa aggctataaa cgtcgttact atccttacgg ttcggcgttg acccacgtca
1561 tcggctatgt gtcgaaaatc aacgataaag acgtcgaacg cctgaataat gacggcaaac
1621 tggccaacta tgcggcaacg catgatatcg gtaagctggg cattgagcgt tactatgaag
1681 atgtgctgca cggtcagacc ggttatgaag aggttgaagt taacaaccgt gggcgtgtta
1741 ttcgccagtt aaaagaagta ccaccgcaag ccggacacga tatttacctg acgctggatc
1801 tcaaactcca gcaatatatt gaaacgctgc tggcgggtag ccgcgcagct gtggtagtca
1861 ccgatccgcg tacaggtggg gtgctggcgc tggtttccac gcctagttat gacccaaact
1921 tgtttgttga cggtatctcc agcaaagatt attccgcctt gttgaacgat ccgaatacac
1981 cgctggtgaa ccgcgccaca cagggggttt atcctcccgc gtctacagtt aaaccctatg
2041 tggcggtttc ggcattgagc gccggggtga tcacgcgcaa tacgacgctg tttgacccag
2101 gctggtggca actgccaggt tcggaaaaac gttatcgtga ctggaaaaaa tggggccacg
2161 ggcgtctgaa tgtcacaaga tcgctggaag aatctgcgga taccttcttc tatcaggtgg
2221 cctacgatat ggggatcgat cgcctctccg aatggatggg taaattcggt tatggtcatt
2281 acaccggtat cgacctggcg gaagaacgtt ccggcaacat gcctacccgc gaatggaaac
2341 agaaacgctt taaaaaaccg tggtatcagg gtgacaccat tccggttggt atcggtcagg
2401 gttactggac agcgacccca atccagatga gtaaggcact gatgatcctg attaatgacg
2461 gtatcgtgaa ggttcctcat ttgctgatga gcaccgccga agacggcaaa caggtgccat
2521 gggtacagcc gcatgaaccg cccgtcggcg atattcattc cggttactgg gagctggcga
2581 aagacggtat gtacggtgtt gctaaccgcc ctaacggtac ggcgcataaa tactttgcta
2641 gcgcaccgta caaaattgcg gcgaaatccg gtaccgctca ggtcttcggt ctgaaagcga
2701 acgaaaccta taatgcgcac aaaattgccg agcgtttacg tgaccacaaa ctgatgaccg
2761 cctttgcgcc atacaacaat ccgcaagtgg ctgtcgccat gattctggag aacggtggtg
2821 cgggtccggc ggttggtaca ctgatgcgcc agatcctcga ccacattatg ctgggtgata
2881 acaacaccga tctgcctgcg gaaaatccag cggttgccgc agcggaggac cattaa
//
LOCUS FLBL40PB1 2381 bp ss-RNA entered 01/26/87
DEFINITION Influenza B/lee/40 virus, polymerase PB1, complete genome.
ACCESSION N00004
KEYWORDS Influenza B virus; PB1; PB1 protein; RNA polymerase;
complete genome; polymerase.
SOURCE Influenza B/Lee/40, virion genome RNA from egg-grown virus or mRNA
from virus-infected HeLa cells.
ORGANISM Influenza type B
Viridae; ss-RNA enveloped viruses; Orthomyxoviridae.
REFERENCE 1 (base 1 to 2381)
AUTHORS Kemdirim,S., Palefsky,J. and Briedis,D.J.
TITLE Influenza B virus PB1 protein: Nucleotide sequence of the genome
RNA segment predicts a high degree of structural homology with the
corresponding influenza A virus polymerase protein
JOURNAL Virology 152, 126-135 (1986)
COMMENT PB1 genome RNA segment is 2368 nucleotides. Sequence comparison
between the influenza A and B virus PB1 proteins reveals that they
share the highest homology (61% amino acid homology, reported in
[1]) yet seen between proteins encoded by these disparate viruses.
In [1], first non-viral 13 nucleotides are presumably derived from
the 5' end of an influenza mRNA to which they had been transferred
from a cellular mRNA during the transcription initiation process of
virus mRNA synthesis.
FEATURES from to/span description
RNA < 1 13 non-viral HeLa mRNA
pept 34 2292 PB1 peptide (497th a may be t to code leu.)
RNA 2381 14 (c) polymerase PB1 complete genome
SITES
mRNA<- 13 1 non-viral HeLa mRNA end
->virion 14 1 (c) polymerase PB1 genomic RNA end
refnumbr 14 1 numbered 1 in [1]; zero not used
->pept 34 1 PB1 cds start
conflict 497 1 probably t to code leu
pept<- 2292 1 PB1 cds end
site 2365 1 polyadenylation site
virion<- 2381 1 (c) polymerase PB1 genomic RNA start
BASE COUNT 868 a 406 c 529 g 578 t
ORIGIN 13 nucleotide upstream of 3' end of the virion genome RNA segment
1 aggatctagc agcagcagaa gcggagcttt aagatgaata taaatccata ttttcttttc
61 atagatgtac ctatacaggc agcaatttca acaacattcc catacaccgg tgttccccct
121 tattctcatg gaacgggaac aggctacaca atagacaccg tgattagaac acacgagtac
181 tcaaacaagg gaaaacaata catttctgat gttacaggat gtgtaatggt agatccaaca
241 aatgggccat tacccgaaga caatgaaccg agtgcctatg cacaattgga ttgtgttctg
301 gaggctttgg atagaatgga tgaagaacat ccaggtctgt ttcaagcagg gtcacagaat
361 gccatggagg cactaatggt cacaacagtg gacaaattga ctcaggggag acagaccttt
421 gattggacgg tgtgtagaaa ccaacctgct gcaacggcac tgaacacaac aataacctct
481 tttaggttga atgattaaaa tggagccgac aagggtggat tagtgccctt ttgccaagat
541 atcattgatt cattagacaa acctgaaatg attttcttca cagtaaagaa tataaagaaa
601 aaattgcctg ctaaaaacag aaagggtttc cttataaaaa gaatacctat gaaggtaaaa
661 gacagaataa caagagtgga atacatcaaa agagcattat cattaaacac aatgactaaa
721 gatgctgaaa gaggcaaact aaaaagaaga gcaattgcca ccgctgggat acaaatcaga
781 ggatttgtat tagtagttga aaacttggct aaaaatatct gtgaaaatct agagcaaagt
841 ggtttacccg taggtggaaa cgaaaagaag gccaaactat caaatgcagt ggctaaaatg
901 ctcagtaatt gtccaccagg agggatcagt atgactgtga caggagacaa tactaaatgg
961 aatgaatgct taaatccaag aatctttttg gctatgactg aaagaataac cagagacagc
1021 ccaatttggt tccgggattt ttgtagtata gcaccggtct tgttctccaa taaaatagct
1081 agattgggaa aagggttcat gataacaagt aaaacaaaaa gcctaaaagc tcaaatacct
1141 tgtcccgatc tgtttaatat accattagaa agatataatg aagaaacaag ggcaaaactg
1201 aaaaagctaa aacctttctt caatgaagaa ggaacggcat ctctttcgcc aggaatgatg
1261 atgggaatgt ttaatatgct atctacagta ttaggagtag ccgcactagg gataaaaaac
1321 attggaaaca aagaatactt atgggatgga ctgcagtctt cggatgattt tgctctgttt
1381 gttaatgcaa aagatgaaga gacatgtatg gaaggaataa acgattttta ccgaacatgt
1441 aagctattgg gaataaacat gagcaaaaag aaaagttact gtaatgaaac tgggatgttt
1501 gaatttacca gcatgtttta cagagatgga tttgtatcta attttgcaat ggaactccct
1561 tcatttggag tcgctggagt gaatgaatca gcagacatgg caataggaat gacaataata
1621 aagaacaata tgatcaacaa tgggatgggc ccagcaacgg cacaaacagc catacaatta
1681 ttcatagctg actatagata cacctacaaa tgccacaggg gagattccaa agtggaaggg
1741 aagagaatga aaattataaa ggagctatgg gaaaacacta aaggaagaga tggtctatta
1801 gtagcagatg gtgggcctaa tctttacaat ttgagaaacc tgcatattcc agaaataata
1861 ttaaaataca acataatgga ccctgagtac aaaggacggt tactgcatcc tcaaaatccc
1921 tttgtaggac atttgtctat tgagggtatc aaagaagcag atataacacc tgcacatggc
1981 ccaataaaga aaatggacta cgatgcggta tctggaactc atagttggag aaccaaaagg
2041 aacagatcta tactaaacac tgatcagagg aacatgattc ttgaggaaca atgctacgct
2101 aagtgttgca acctttttga ggcttgcttt aacagtgcgt catacaggaa accagtaggc
2161 cagcacagca tgcttgaagc tatggcccac agattaagaa tggatgcacg actggactat
2221 gagtcaggaa ggatgtcaaa agaggatttc gaaaaagcaa tggctcacct tggtgagatt
2281 gggtacatgt aagctccgga aatgtctatg gggttattgg tcatcgttga atacatgcgg
2341 tgcacaaatg attaaaatga aaaaaggctc gtgtttctac t
//
DDBJ 定期リリース70.0(2007年6月公開)中にフォーマットの不正なデータが見つかりましたので,2007年7月24日に,訂正版 70.1 を公開しました。
ご迷惑をおかけしましたことをお詫びいたします。
2007年3月27日から30日まで,中国・上海交通大学にて第6回日韓中バイオインフォマティクス・トレーニングコースが開催され,日本からも10名の受講生が参加しました。
前回メールマガジンに引き続き,受講者による参加報告レポートをご紹介します。今回は, Fernando Encinas Ponce さんよりご寄稿いただきました。 日韓中バイオインフォマティクス・トレーニングコースの詳細はこちらをご覧下さい。 ************************************************************************************ Fernando Encinas Ponce Researcher at Laboratory for Gene-Expression Analysis, CIB-DDBJ, NIG I.Introduction Since 2002, first Korea and Japan and later including China, the three countries have been organizing an annual bioinformatics training course. The initial idea to promote the field of bionformatics, specially among young researchers, has become a very well established and formal “short-term” bioinformatics education on the basis that nowadays application of informatics along with diverse disciplines such us mathematics, statistics, chemistry and others are essential to carry out any research project in genomics, proteomics and other related fields in biology. This year, The Sixth Sino-Japan-Korea Bioinformatics Training Course was held in the astonishing city of Shanghai under the organization of Shanghai Center for Bioinformation Technology (SCBIT), the National Institute of Genetics (NIG, Japan) and the Korean Research Institute of Bioscience and Biotechnology (KRIBB). The following is a brief report on the activities and contents of this year. II.General Information
- Location: The training course took place in installations of Shanghai Jiaotong University, Minhang Campus in Shanghai, China. All participants were impressed by the splendid view of the campus and satisfied with all the facilities it includes, among others, the Guest House of the Academic Center were we stayed during the course.At the moment of registration every participant was provided with all material necessary for the course and a kind gift from the organizers. - Time: Basically the training was a 20 hour intensive course that extended from March 27th. to March 30th. Every day the sessions started at 8:00 and lasted until 18:45 with a main brake of 60 minutes for lunch. - Participants: The training course consisted of three different groups of participants: The organization group whose members were always kindly open to help and solve any inquire from the attendants, 10 lecturers from the three countries who were responsible to lead and present every session and 30 students (10 per country) whose background either related to biology or not, was not a limitation to make the best of this opportunity to experience the “taste” of the bioinformatics world. III. Structure and contents
The course was divided by sessions, each at a time consisted of theoretical and practical contents. The theoretical content of each session was aimed to include in-depth coverage of subjects that support the development of research projects using genome-scale information or the construction of specific databases for storing specific kinds of data or if it was the case, the design of new software tools used for retrieval and analysis.Immediately after, during the practical sessions, every student provided with a personal computer was encouraged to explore and use the methods and tools introduced by the lecturers using real biological examples. Following is a brief summary of the topics covered during the training course:
The coverage of topics during the three days of activities was really broad and complete. This is quite important if we agree that bioinformatics is a very dynamic and competitive field that demands continuous learning, practice and updating. Training courses such as this constitute fundamental steps in our formation as students or if we want to start a new project in this challenging field. Useless is to mention that in my case as an international student in Japan, I felt completely granted to participate in this course not only for the benefits to my current work but also for the perspectives in the field of bioinformatics in my country. I would like to emphasize that the friendly environment surrounding the classes, the collaborative attitude of organizers and the kind consideration of lecturers to discuss with the students made from this course a complete success and a memorable experience for all of us. Thank you Shanghai 2007!!!
ddbjmag@ddbj.nig.ac.jp
この DDBJ メールマガジンは国立遺伝学研究所内の方と,所外の希望者に配信しています。 配信希望・変更・不要の方は,画面右上の「申込み・変更」ページをご利用になるか,次のメールアドレスまでご連絡下さい:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
Last modified: Oct. 07, 2011
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||