
三島市の隣町,清水町には水質,水量がともに「東洋一」と言われる柿田川湧水群があります。
「名水百選」や「21世紀に残したい日本の自然100選」にも選ばれています。
1日100万トンもの水量が湧き出し,近隣の市町村の飲料水になるほか,
産業用水や農業用水としても利用されます。
一日走り終わった新幹線も,三島車両所でこの湧水を使い洗浄されるそうです。
柿田川湧水群は,公園になっていて,
水が湧き出している様子が間近に見られる展望台や美味しい湧水を汲んで持ち帰ることができる場所もあります。
また,売店で売られている,湧水を使った豆腐やところてんもイチオシです。
DDBJ メールマガジン第64号 web 版です。
DDBJ が管理・収集している塩基配列データベースは,リリースとして定期的に年4回オンライン上で公開しています。
2011年9月26日に DDBJ リリース87.0,DAD リリース 57.0 が完成しました。
FTP によるデータの取得は,FTP・WebAPI のページ より可能です。また,現在公開されているリリースの情報 もご参照下さい。
-
DDBJ リリース 87.0
- エントリ数:142,339,601 塩基数:131,276,394,833
- エントリ数:21,596,317 総アミノ酸残基数:6,173,068,786aa
DAD リリース 57.0
DDBJ, EBI, NCBI で構成される International Nucleotide Sequence Database Collaboration (INSDC) は,その共同事業の運営・推進を図るために,国際実務者会議を年1回開催しています。
2011年は5月23日-27日に大阪で開催され,DDBJ, EMBL-Bank, GenBank, Sequence Read Archive (SRA), Trace Archive を運営する上での実務的な問題を討論しました。
慣例通りであれば,三島で開催するところでしたが,当時は震災に関連した電力不足の懸念などもあり,EBI とNCBI の理解と協力を得て大阪で開催となりました。会議の報告は こちら をご覧下さい。
BioProject は研究プロジェクトと INSDC が運営するアーカイブに存在するプロジェクト由来データを組織化するデータベースです。INSDC が運営する複数のデータベースに登録されたデータが BioProject ID を参照することにより,プロジェクトとプロジェクトに由来するデータセットがグループ化されます。DDBJ では DDBJ 塩基配列データベース, Sequence Read Archive, Trace Archive にあるデータがまとめられます。BioProject データはプロジェクトの対象範囲,実験材料,目的,研究費の提供元や研究カテゴリなどの情報を含んでいます。BioProject は既存の NCBI Genome Project を拡張,再デザインしたものです。
DDBJ BioProject は登録されたプロジェクトデータに対して国際的に認可されたプレフィックス 'PRJD' で始まるアクセッション番号を発行します。公開されたプロジェクトデータは EBI,NCBI と交換,共有されます。
※BioProject データベースは段階的にリリースされます。登録システムのリリース後,BioProject データの登録受付を開始します。
また,FTP の ddbj_database (DDBJ 由来データ) 配下のディレクトリに bioproject を新設しました。DDBJ BioProject から公開されるデータは bioproject ディレクトリから取得できます。
ddbj_database 以下の構成の詳細は,同ディレクトリ内の README.TXT をご参照下さい。定期監視されている場合は,お早めの変更をお願いいたします。
羊土社 から実験医学増刊号 「使えるデータベース・ウェブツール - 日本発のデータベース戦略から,ゲノム・疾患情報の有効活用まで(有田正規/編)」 が出版されました。
この書籍はDDBJ を運営する国立遺伝学研究所 生命情報・DDBJ 研究センターの教員やスタッフも執筆者となり,DDBJ について下記の解説などが掲載されています。
目次例
・DDBJ の現在:継承と変革【中村保一/小笠原理/神沼英里/菅原秀明/高木利久/大久保公策】
- DDBJ の積み上げてきたもの
- DDBJ の新たな展開
・DDBJ の塩基配列解析ツールと登録システム【長崎英樹/神沼英里】
- DDBJ の検索/解析ツール
- DDBJ のクラウド型解析ツール:DDBJ パイプライン
- DDBJ の塩基配列登録ツール
・解析プラットフォーム紹介【中尾光輝/藤澤貴智】
- Galaxy はゲノム配列データ解析ウェブアプリケーション
- Cytoscape はネットワーク解析ソフトウェア
- BioMart はデータベースから必要な部分(データセット)を抽出するためのウェブアプリケーション
詳細はこちら をご覧下さい。
DDBJ の塩基配列解析ツールについて(前編)
近年登場した高速シーケンサから文字通り桁違いの塩基配列情報が生成されています。費用や時間の節約と引き換えに,その膨大な配列情報の解析には大量のデータ処理が可能な計算機インフラやそれらを操作するための技能が必要となり多くの研究者を悩ませています。
DDBJ では高速シーケンサ由来の大量配列データを取り扱う為に,クラウドコンピューティングを基盤とした塩基配列解析ツール「DDBJ Read Annotation Pipeline (以下DDBJ パイプライン)」を構築して広くユーザの方々に使ってもらおうとしています。クラウドコンピューティングとは大規模なデータ解析をインターネット越しに行う新しい計算機技術です。
DDBJ パイプラインは,http://p.ddbj.nig.ac.jp/ よりアクセスできます(図1)。トップページから取得したユーザアカウントか,DDBJ が公開している高速シーケンサの出力データベース DDBJ Sequence Read Archive (DRA) のアカウントで利用可能となります。DDBJ パイプラインは,参照ゲノム配列に対するマッピングまたはde novo アセンブリを行なう「基礎処理部」とSNP 検出や発現解析等の高度な解析を行う「高次処理部」から構成されています。基礎処理部は公開済みで,高次処理部は試験運用中です。
図1:DDBJ パイプライン トップページ(http://p.ddbj.nig.ac.jp/)
筆者が執筆者の一人でもあります 羊土社 から出版の 「使えるデータベース・ウェブツール」 も併せてご覧下さい。
また,2011年6月30日に講師を務めました「第24回 DDBJing 講習会 in 東京」での講義資料 もご参照下さい。
SAKURA は,DDBJ が運用している WWW 経由の塩基配列データ登録システムです。
8月15日より,FAX 番号の入力が 『必須項目(
マーク)』 へ変更になりました。必須項目は,入力をしないと次のページへ進むことができませんのでご注意下さい。

DDBJ では,通常は登録者への連絡に電子メールを使用しています。しかし,サーバートラブル等で,電子メールによる連絡ができない場合には,FAX で連絡をさせて頂くことになりますので,FAX番号のご入力をお願いいたします。
FAX をお持ちでない方は, 『FAX 機をお持ちでない方はチェックしてください。』 を選択して下さい。
皆様のご理解とご協力をお願いいたします。
DDBJ が登録を受付け,2011年8月から2011年9月にかけて DDBJ/EMBL/GenBank 国際塩基配列データベースから公開した大量データは以下の通りです。(getentry から検索可能です)
Sun Yat-sen University (中国) から登録された肝吸虫 (Clonorchis sinensis) 由来の WGS と scaffold CON データが公開されました。
アクセッション番号は以下の通りです。
WGS:BADR01000001 - BADR01060778 (BADR.gz) ( 60,778 entries)
scaffold CON:DF126616 - DF142827 ( 16,212 entries)
農業生物資源研究所から登録されたカイコ (Bombyx mori) 由来の EST と full length cDNA 配列データが公開されました。
アクセッション番号は以下の通りです。
EST
FS724152 - FS939542 ( 215,391 entries)
FY736910 - FY762881 ( 25,972 entries)
full length cDNA (HTC 含む)
AK377185 - AK388575 ( 11,160 entries; 231 entries 抜け) 詳細
参考:
カイコゲノム研究プログラム (SGP)
酒類総合研究所から登録された清酒酵母 (Saccharomyces cerevisiae Kyokai no. 7) 由来の WGS と scaffold CON データが公開されました。
アクセッション番号は以下の通りです。
WGS:BABQ01000001 - BABQ01000705 (BABQ.gz) ( 705 entries)
scaffold CON:DG000037 - DG000052 ( 14 entries)
mitochondrion:AP012028
参考:
清酒酵母ゲノム解析
Q.連番登録の途中で,既にSubmitしたエントリの内容に間違いがあることに気づきました。
修正はできますか?
A.
SAKURA では一度Submit したエントリを再び呼び出して内容を変更することはできません。
その場合の修正作業はDDBJ で行いますので、まずは残りの登録作業を全て完了させて下さい。
修正依頼は,連番登録の最後のエントリを登録する際に,「登録付加情報」
ページに修正を希望するエントリのEntryID と修正内容を明記して下さい。
連番登録の詳細は,DDBJ HP のQ and A をご覧下さい。
[1-3-7] SAKURA:連番登録(連続したアクセッション番号の発行を希望する登録)
ユーザーの皆様にDDBJ の業務内容を知って頂き,より身近に感じて頂くためにDDBJ アノテータの仕事をリレー連載コラムで紹介します。
DDBJ Sequence Read Archive
ややこしいがDDBJ という単語には二つの使われ方がある。一つは今までのコラムで紹介されてきた小さい意味のDDBJ。DDBJ/EMBL-Bank/GenBank のDDBJ でアノテーション付き塩基配列データを収集しているデータベースのこと。もう一つは大きい意味のDDBJ。DDBJ/EBI/NCBI のDDBJ でデータベースの運営母体のこと。まずはこの違いをはっきりさせておこう。もっとも大DDBJ と言ってもEBI/NCBI と比べて予算も人員もとても少ない。
このコラムで紹介する DDBJ Sequence Read Archive は大DDBJ を構成する公共データベースのうちの一つだ。
DRA は「次世代シークエンサからの生っぽいデータを集めて提供している公共データベース」。
次世代?
次世代シークエンサだがそもそも次世代ではない。現在続々とデータを生み出している。正確には「新世代」の方がいいのだろう。じゃあ,今の次世代は?実際,過去に次々世代とか第3世代とか言われていた1分子シークエンサとか半導体シークエンサのデータもすでに入っている。だからより正確には「新世代以降シークエンサからの」になる。
生っぽい?
本当の生データは画像だが,これをアーカイブしていたらとっくに音をあげていただろう。基本的には画像処理とベースコールされた後の配列とクォリティデータを集めている。リシークエンスの場合はアライメントデータの方が何かと都合がいいので最近はアライメントデータの受付けも始めた。
まとめるとDRA は「新世代以降シークエンサからの生っぽいデータを集めて提供している公共データベース」となる。
データは「メタデータ」と「シークエンスデータ」の二種類がある。シークエンスデータは塩基配列とクォリティデータを含んでいる。メタデータはシークエンスデータがどうやって得られたのか書いてある説明書。こういう研究目的で,こうやってサンプルをつくって,こういう実験をして,このシークエンサでランして,といったことが書いてある。他の研究者がみて理解できる程度に書いてあることが大切だ。DRA ではシークエンスデータの塊にメタデータという説明書がペタっと貼ってある。DRA のメタデータはEBI/NCBI と同じで,アクセッション番号も共有している。
シークエンスデータはでてきたファイルそのものだからいいとしても,メタデータはちょっとややこしい。
まず,DRA のメタデータはStudy,Sample,Experiment,Run,Analysis,Submission の6種類がある。さらにこれらのオブジェクトは 階層構造 をつくっている。これがDRA メタデータの最大のミソであり,同時にとっつきにくいところ。階層構造のおかげでRun を追加したりSample を使い回したりといったことが柔軟にできるが,オブジェクトをウロウロしないと全体像が分からないのもまた事実。
登録ではメタデータをつくることが中心になる。DRA で提供しているMetadefine というメタデータ作成ツールの画面に内容を入力していくだけなのだが,正直最初はつまずきやすい。まずは 項目の説明 をざっとご覧いただきたい。似たような データを探し出してきて 真似るのも一つの手。一回慣れると次からはぐっと楽になります。
大DDBJ/EBI/NCBI がやっているSRA ってなんの役に立っているの?
国際的な超大型プロジェクト(例 Human Microbiome Project,1000 Genomes)は「でてくる生データは人類の共有財産だから速やかに公開されるべし」としている。だから,生データはすぐにSRA を通して世の中に公開され,世界中の研究者が利用できるようになっている。他にも個人レベルの情報を扱っている dbGaP や EGA と連携して,個人情報を含むデータはdbGaP とEGA,含まないデータはSRA,という役割分担をしている。このシステムは病気の研究等を強力にサポートしている。
今やSRA は超大量データの共有基盤としてなくてはならない存在なのです。
生データの登録を要求するジャーナルが増えているので,是非余裕をもって登録を。
そもそもDDBJ って何?という方は → こちら 「日刊工業新聞 2011.2.21.掲載 『キラリ研究開発』」

配信申込・中止・変更の方は,「申込・変更」ページをご利用下さい。
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540 静岡県三島市谷田1111
