HOME > レポート・統計 > メルマガ
DDBJ メールマガジン
No. 61   2011年5月31日発行
apply 申込・変更    top 最新号 top    backnumber 過去の号    ddbj 発行:DDBJ
桜えび
ochabatake

桜えび(学名:Sergia lucens)は,エビ目・サクラエビ科の深海に生息する小型の海老です。 桜えびは世界的にも希少な生物で,日本では駿河湾だけで水揚げされています。 漁期は,春漁(3月末〜6月初め ),秋漁(10月末〜12月末)と期間が限定されています。 今は,ちょうど春漁の真っ最中です。
桜えび漁の歴史は,アジの網引きをしていた漁師がうっかり網を深く潜らせてしまい, その時,偶然にも大量の桜えびが採れたことが始まりとされています。
多くの海老は殻を剥いて食べますが,桜えびは殻ごと食べられます。 そのため,カルシウムの摂取量が桁違いに多く,栄養満点です。 また,釜ゆでやお刺身,かき揚げは,驚くほどの美味しさです。まさに「駿河湾の宝」です。

DDBJ メールマガジン第61号 web 版です。

「DDBJing 講習会 in 東京」 開催

2011年6月30日,「第24回 DDBJing 講習会 in 東京」 を開催します。

  日 時: 2011年6月30日(木)
  場 所: ライフサイエンス統合データベースセンター(DBCLS)
  対 象: DDBJ を利用される方をどなたでも歓迎します (定員20名)
  参加費: 無料

【 講義内容 】
今回の講習会では,Next-Generation Sequencer(NGS) に関する講義が中心です。
  ・NGS のベースコール精度とアセンブリ精度について
  ・MiGAP 〜微生物ゲノム注釈ツール利用法
  ・DDBJ Sequence Read Archive(DRA) へのデータ登録
  ・Pipeline 基礎 〜アセンブリ・マッピング
  ・Pipeline 高次 〜galaxy とゲノム・SNP 解析例
  ・NGS 由来アセンブル配列の登録 〜大量登録システム(MSS)    など

2011年6月1日(水)より申込み受付開始です。詳細は,こちら をご覧下さい。

講習会に関するご意見ご質問,または開催のご要望がありましたら検討いたしますので,お問い合わせ の「講習会」までご連絡下さい。

ARSA サービス再開

東日本大震災に伴う政府および東京電力からの節電の呼びかけに呼応し,サービスを停止しておりましたが, 検索対象データベースを制限してサービスを再開しました。(2011.05.18)

再開サービス:
  ・ARSA の DDBJ, DAD 検索 (その他18 のデータベースは,検索不可のため検索結果に含まれません)
  ・TXSearch からの ARSA 連携機能は利用可

また,その他のサービス再開のお知らせは,決定次第 HPTwitter にてお知らせいたします。

大量データの公開

京都大学から登録されたカタユウレイボヤ (Ciona intestinalis) ゲノムの TPA-WGS, scaffold CON データが公開されました。

参考:Ghost Database

アクセッション番号は以下の通りです。

  ・TPA-WGS    EAAA01000001 - EAAA01006374 (EAAA.gz) (6,374 entries)
  ・TPA-scaffold CON    HT000001 - HT001272 (1,272 entries) (getentry から検索可能です)

"困った de Q" 第5回 (ユーザから寄せられる Q and A です)

Q.DDBJ が発行する「セカンダリアクセッション番号」とはどのようなアクセッション番号でしょうか?

A. DDBJ を含むINSD が発行する登録番号をACCESSION (アクセッション番号)と呼んでいます。
このうち,複数のエントリを統合した場合や,データ登録後に大幅な内容変更がされた場合などには,新規にアクセッション番号を発行することがあります。 この際,新規のアクセッション番号(プライマリアクセッション番号)に対して,既存のアクセッション番号が,セカンダリアクセッション番号となります。

フラットファイルには,先頭にプライマリアクセッション番号,2つ目以降にセカンダリアクセッション番号を記載します。

mag61-QA

プライマリアクセッション番号とセカンダリアクセッション番号のどちらの番号で検索しても,同じ変更後のデータが検索されます。

ただし,セカンダリアクセッション番号のエントリが既に公開済みの場合は,データベース上から抹消されるわけではなく,ID とVersion Number を指定し検索することが可能です。

  参照: [1-1-5]公開を取り消したデータが,現在も参照できるのはなぜですか?

DDBJ アノテータの業務紹介 〜 3.大量登録システム(MSS) の利用(後編)

ユーザーの皆様にDDBJ の業務内容を知って頂き,より身近に感じて頂くためにDDBJ アノテータの仕事をリレー連載コラムで紹介します。


  大量登録システム(MSS) の利用(後編)
DDBJ アノテータ 大城戸 利久

前編 からのつづき

3. 査定の手順
INSDC に登録・公開される塩基配列は貴重な学術的成果ですので,アノテータは可能な限り学術的に正確で,且つ有意なアノテーションの記載を目指しています。

大量登録システム(MSS) での登録において最初のポイントは“仮登録”です(図1.仮登録)。仮登録では,登録データの一部を送っていただき,アノテータが記載内容についてチェックします。基本的なフォーマットエラーのチェックはもちろんですが,送られてきたデータをどのようなカテゴリ,或いはdivision のデータとして登録するのか,どのようなアノテーションを記載するのか方針を検討します。
    
判断する材料の不足や,不明な点が生じると,アノテータは登録者に追加の情報(研究の目的や配列の産生方法など)の提示を求めます(図1.査定作業:仮登録)。仮登録は登録内容の誤りを減らすこと,登録者に適切なアノテーションの記載を理解していただく重要なステップです。
    
方針が決まると,その決定に基づいて登録予定件数分のファイルを作成・送付していただきます(図1.本登録)。
    
アノテータは本登録ファイルを受け取ると登録内容の全体を理解することに努めます。問題点や記載内容の不足があった場合には,対応方針を登録者に説明し,修正を提案します(図1.査定作業:本登録)。
    
査定が完了するとアノテータは,アクセッション番号発行作業に着手します(図1.アクセッション番号)。

以下,データ種別ごとに査定例を紹介します。

I. 【 Single pass sequencing の配列 】
このタイプに属するデータは,EST (Expressed Sequence Tags),GSS (Genome Survey Sequences) です。
塩基長はそれほど長くはないものの,登録件数が数万以上に達することもあり,MSS で受け付ける代表的なデータの一つです。このデータの配列の読み取り精度は“完成(finished)” ではなく途中段階のデータですので,CDS などの生物学的特徴を記載は不要です。EST とGSS データで要求されるアノテーションはsource feature のみです。しかしながら,両者間で要求される情報は多少,異なります。

GSS は一部の例外を除き,主にゲノムの部分配列です。source feature に記載すべき内容としては,“生物名(organism)”,“クローン名(clone)”,“株名(strain) や個体識別情報(isolate)” など,配列の由来生物に関する情報の入力でほぼ完了です。
一方,EST はタンパク質発現遺伝子,或いは類似遺伝子の転写物配列の一部ですので,source 情報はGSS とは異なり遺伝子発現に関連する情報が要求されます。
即ち,“いつ (dev_stage) ?”,“どの組織/ 器官(tissue_type)・細胞(cell_type, cell_line)?”,“性別 (sex) ?” などの情報で,アノテータはこれらの内容を聞き取ります。シーケンスサンプルの調整方法はどのような状態の遺伝子発現を見ているのかを理解する上で重要ですので,詳しく聞き取り,その内容を正確に反映するように注意を払っています。(カッコ内はqualifier 名)

登録ファイルが揃うと,アクセッション番号発行手続きを始めることを前に言及しましたが,発行作業時に,アノテータはアクセッション番号のprefix の選択を行います。
アクセッション番号に使用されるprefix はINSDC 間で重複しないように一元管理されており,また各々のprefix をどのタイプのデータに使用するか,各データバンクは 必ず他のデータバンクに宣言します。EST,GSS データ用に複数のprefix が割り当てられていますので,アノテータは適切なprefix を選択し,アクセッション番号を発行します。

II. 【 ゲノム規模の登録とアノテーション 】
ゲノム配列データは非常に大きな情報量を有していますので,査定には労力と時間を要します。登録者が登録ファイルを作成するまでに費やした実験や解析の時間と労力を考えますと,重みのあるデータです。
INSDC では全ゲノム規模の配列は2つのカテゴリで受付をしています。一つは『complete ゲノムとしての登録』,もう一つは『complete に達していない途上過程配列の登録』です。前者は主に通常データとして扱い,後者は”WGS” カテゴリとして受け付けます。

ゲノム規模の登録に当たっては,各々の登録データセットをproject とみなし,IDを割り振ります(Project ID)。このID はINSDC 間で一元的に管理されており,一セットゲノムのデータに対してユニークなID が発行されます。
また,ゲノムエントリの変更の際に,記載されているfeature のtracking を目的とし,遺伝子に関連するfeature には ”locus_tag” を記載します。(/locus_tag qualifier の記載法)
locus_tag の記載には特定のprefix が割り当てられます。このprefix はproject ID との間で一意に関係性が保たれています(図3)。

Project ID とlocus_tag prefix の申請の大部分をアノテータが登録者の代理で行います。登録者情報に加え,配列の由来source の名称やゲノムの特徴(推定長,レプリコンの数など),シーケンシング実験に関する内容を提供してもらい,その内容を添えて申請します。

mss3

  図3. locus_tag prefix の管理データベース

III. 【 Complete ゲノム 】
配列の読み取りがFinishing と判断されるデータですので,生物学的特徴の記載が必須となります。
原核生物といえどもcomplete ゲノムとなると,塩基長は数百万 bp に達し,そこに記載されるfeature 数は4-5,000超になります。真核生物は原核生物よりもさらに複雑になります。例えば染色体数分までにまとめ上げた配列だと,その分だけのエントリ(エントリ多くても数十本)の登録で済みますが,そこまで配列が組み上げられていない下位のcontig 配列のみであると,登録数は数百件以上にもなります。また塩基長は千万から十億bp の単位になり,記載されるfeature 数も何万にもなります。例としてイネゲノムでは,配列長が3.82億bp,で,記載される総feature 数は約40万(CDS は28,000余個)になります。

Complete ゲノム配列の査定は,使用されているfeature(指定領域も含む)の妥当性,遺伝子産物名のチェックを中心に行います。
原核生物のゲノムの場合,RBS feature を例にします。RBS の特徴を考えると,その下流にCDS の存在が予想されます。ところが稀に,RBS だけのみ記載されて,その下流に適切なCDS が存在しないことあります。その時には登録者にRBS feature の記載が妥当であるか確認を要請します。
真核生物の場合では,大多数のタンパク質コード遺伝子はintron によって分断されていますので,CDS の指定領域におけるGT-AG 則の妥当性も検証の対象となります。
全てのfeature の記載内容が妥当であるかどうか,アノテータが十分に確認することは容易ではありませんが,可能な限り記載内容を注意深く検証していきます。

IV. 【 WGS (Whole Genome Shotgun) 】
このカテゴリのデータはfinishing に近い完成度の高いデータからcontig の整列が不十分な低いものまで様々です。finishing まで完成させることが容易ではないことや次世代型シーケンサー(NGS) の普及も進んだこともあり,近年,このカテゴリのデータ登録が増えています。

配列の査定で注意する点は,シーケンシングギャップを表す連続した”n” が含まれていないかどうかや,配列長が極端に短いエントリの存在についてです。 アノテーションの査定では,途上データであることから,CDS などのsource 以外のfeature の付加を義務付けていませんが,付与することを禁止していません。記載方法はcomplete ゲノム配列とほとんど変わらない内容です。
また,WGS データはシーケンシングギャップ個所にgap feature を用いてより高次な配列(super-contig,chromosome) などに組み上げたエントリの登録に引用配列(ピースエントリ)としても使用されます。これら高次の配列はCON エントリとして登録されます(図4)。 多少複雑な登録手順ですが,登録者が順序立てて登録を進められるように,アノテータは誘導していきます。

mss4

  図4.次世代型シーケンサー(NGS)より読み取られた全ゲノム規模配列の登録概要の例
     (WGS とCON division エントリの構築)

4. 最後に
ここでは紙面の都合上,他のデータについては割愛していますが,基本的にMSS での登録受付ではデータの大小に関わらず入力されている内容を,コンピューターツールの併用と共に,目視を主な方法として確認を行います。MSS で扱うデータは規模が大きくなりますので,手間がかかりますが,少しでも早く正確に査定を行うことに努めると同時に,登録者への負担軽減も意識しています。

大規模データの登録をお考えの方はMSS のご利用をお勧めしていますので,ご連絡をお待ちしております。

ddbjmag@ddbj.nig.ac.jp
この DDBJ メールマガジンは国立遺伝学研究所内の方と,配信を希望される方に送らせて頂きます。
配信申込・中止・変更の方は,「申込・変更」ページをご利用下さい。
発行:日本 DNA データバンク(DDBJ)
大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所 生命情報・ DDBJ 研究センター
〒411-8540  静岡県三島市谷田1111