DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 登録の見本
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • CON
    • GSS
    • HTG
    • Environmental sequence の登録
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • Pseudohaplotype

Pseudohaplotype

これまで全ゲノムシークエンスでは相同染色体のアリルを区別せず、コンセンサス配列として結果を得ることが一般的でした。しかし、ロングリード・シークエンス技術によりハプロイ (INSDC では pseudohaplotype と呼んでいます)を区別してシークエンスすることが可能になりました。Pseudohaplotype シークエンスは同じサンプルから二つのゲノムデータが得られるという特徴があるため、INSDC ではデータの登録方法を定めています。

pseudohaplotype

DDBJ に pseudohaplotype アセンブリを登録する典型的な場合について説明します。まず、pseudohaplotype を区別するためにどちらかを Principal とし、もう片方を Alternate とします。絶対的な基準はありませんが、配列長やシークエンス精度などを基に登録者で選定してください。各 pseudohaplotype は同じサンプルに由来するため、共通の BioSample を使います。INSDC では BioProject と BioSample の組み合わせでアセンブリを管理しているため、組み合わせが pseudohaplotype 毎にユニークになるようにPrincipal と Alternate に対応する BioProject をそれぞれ作成します。さらにアンブレラ BioProject を作成し、両方の BioProject をまとめます。

Pseudohaplotype をシークエンスした生データを DRA に登録する場合、両方の pseudohaplotype のデータが混在している場合、BioProject はアセンブリとは別に DRA 用のものを登録します。BioSample はサンプルがアセンブリと同じであれば、共通のものを使います。

pseudohaplotype データの登録
pseudohaplotype データの登録

BioProject

Principal と Alternate pseudohaplotype に対応するプロジェクトをそれぞれ登録し、両者をまとめるアンブレラプロジェクトを登録します。

  • BioProject 1: Principal
    • title に pseudohaplotype のフェーズに関する情報を記載。例 Principal pseudohaplotype や Primary haplotype
  • BioProject 2: Alternate
    • title に pseudohaplotype のフェーズに関する情報を記載。例 Alternate pseudohaplotype や Alternate haplotype
  • Umbrella BioProject
    • BioProject 1、2 と他の関連する BioProject(図の例では DRA 用の BioProject 3)をまとめる。

BioSample

サンプルは pseudohaplotype で共通であるため、一つのゲノム用サンプルを登録します。

  • パッケージはゲノム用の MIGS を選択。
  • Principal と alternate pseudohaplotype が由来する共通サンプルを一つ登録。
  • Pseudohaplotype に遺伝子アノテーションを付与する場合、Principal と Alternate で使う共通の locus tag prefix を locus_tag_prefix 属性に記入します。プレフィックスが共通でもタグで pseudohaplotype を区別することができます。例 A1C_p00001 (Principal) と A1C_a00001 (Alternate)

DDBJ

Principal と Alternate pseudohaplotype をそれぞれ登録します。

  • Principal pseudohaplotype
    • DBLINK で BioProject 1 (Principal) を参照します。
    • ST_COMMENT に所定のコメントを記載します。
      Genome-Assembly-Data ST_COMMENT: Diploid :: Principal Pseudohaplotype
  • Alternate pseudohaplotype
    • DBLINK で BioProject 2 (Alternate) を参照します。
    • ST_COMMENT に所定のコメントを記載します。
      Genome-Assembly-Data ST_COMMENT: Diploid :: Alternate Pseudohaplotype

登録例

共通

  • BioProject: PRJDB10054 (Umbrella)
  • BioSample: SAMD00229903

Principal pseudohaplotype

  • BioProject: PRJDB10055
  • DDBJ: BLYA01000001-BLYA01003780

Alternate pseudohaplotype

  • BioProject: PRJDB10056
  • DDBJ: BLYB01000001-BLYB01003780

DRA

  • BioProject: PRJDB9979
  • DRA: DRX222432-DRX222163, DRR231909-DRR231923