DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 登録の見本
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • CON
    • GSS
    • HTG
    • Environmental sequence の登録
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • 多型関連研究における同一配列の代表データ登録

多型関連研究における同一配列の代表データ登録

多型関連研究における同一配列の代表データ登録

近年、re-sequencing による多型関連研究が増加傾向にあり、これに由来する配列データの登録も増加傾向にあります。 DDBJ (INSDC) では, 基本的には、配列が同一であっても, 個別に配列を受け付けます。 しかしながら、多型関連研究において使用したサンプルの全てを配列データとして登録した場合、時にはデータ量が膨大で冗長なものとなり、検索利用面での利便性を損なうかもしれません。

多型関連研究においては /haplotype または /frequency qualifier で出現頻度とサンプル総数を記載し代表データのみに集約して登録する方法も受け付けております。

ただし、この方法は 同種異個体に由来する同一配列・類似配列を 常に1つの配列データで代表させるという意味ではありません。 適正なデータ評価と検索利用面での利便性, サンプリングした集団数を正しく反映する目的で、同一配列であっても代表配列データは配列多型の数と観測した集団の数の積算分に相当する件数に集約することが求められます。

配列多型
/haplotype, /allele qualifier などの記載の単一性を維持可能な配列の variation を単位とする区別
観測した集団
/country, /lat_lon, /collection_date, /host qualifier などの記載の単一性を維持可能なサンプリングした集団を単位とする区別

例えば、ネコのある locus に関して日米において配列を調査した結果、下表のように3種類の haplotype で示される配列多型を観測し、haplotype 毎には同一の配列であったとします。 この結果をDDBJに登録する場合、観測した全個体の配列、231件をそのまま登録していただいても構いませんが、それは冗長に感じられます。

配列多型(haplotype) A B C total
Japan 75 38 0 113
USA 26 32 60 118
totla 101 60 70 231

観測した配列は3タイプですので, 配列の同一性にのみ着目して3件の配列データで代表させることも可能と思われます。 しかし、その方法では観測した集団の情報を捉えることが困難になります。 そのため観測した集団に関する情報と配列の双方を配列データに保持可能な件数が良いと思われます。 下記 要領でサンプルの由来情報を source feature に記載し、6通り中、観測されていない日本における haplotype C を除く5件の配列データを登録することが好ましいと考えられます。 さらに、もし、時間経過について観測する場合、/collection_date qualifier についても同様に考えるべきかもしれません。

    source        1..365
                  /country="Japan"
                  /haplotype="A [75 in 113]"
                  /mol_type="genomic DNA"
                  /organism="Felis catus"
    variation     124
                  /frequency="75 in 113"
                  /inference="similar to DNA sequence (same 
                  species):INSD:AB012345.1"
                  /replace="t"