• DDBJ リリース 138.0,DAD リリース 108.0 完成
  • [復旧]getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

Trace Archive

  • Home
  • Submission
  • Downloads
  • ホーム
  • dta
  • Trace Archive

Trace Archive

Trace Archive は閉鎖されました。
trace データのアクセス方法は Access Trace Data をご覧ください。

例 TI 番号 2282248605
curl “https://www.ncbi.nlm.nih.gov/Traces/sra-reads-be/fasta?ti=2282248605&retmode=text”

キャピラリシークエンスデータは DRA に登録することができます。登録する場合、Experiment Instrument でキャピラリシークエンサーを選択します。
登録例 DRX395641-DRX395673

Trace Archive の概要

DDBJ Trace Archive (DTA) は,配列決定プロジェクトからのシングルパスリードの DNA sequence chromatograms (traces), base calls, quality estimates のためのデータベースです。 Trace Archive は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーとして,DDBJ,NCBI と EBI が国際協力して運営しています。NCBI Trace Archive が ID を発行管理しています。 DTA から登録された trace データは NCBI Trace Archive で検索,取得することができます。

trace データは DDBJ Sequence Read Archive で受付けています。特に理由がない限り DRA に登録してください。

メタデータ

必要な項目は STRATEGY と TRACE_TYPE_CODE の組み合わせで決まります。 メタデータは NCBI Trace Archive で検索することができます。

必須項目は Validation Table で確認してください。

必須*
STRATEGY と TRACE_TYPE_CODE の組み合わせによっては必須 *

Metadata Field List

ACCESSION
DDBJ/EMBL/GenBank アクセッション番号

  Type: varchar(30)
  Example: AC22227

ACCESSION は配列データを配列データベース (DDBJ/EMBL/GenBank) に登録することで割り振られます。いくつかの種類の trace (特に WGS) では記載できません。アクセッション番号により Trace Archive の1次配列データと配列データベースの2次配列データが結び付きます。

AMPLIFICATION_FORWARD*
テンプレートの増幅用フォワードプライマーの塩基配列

  Type: varchar(100)
  Example: GGATTCTGACTAACGAGC

配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:TRACE_TYPE_CODE=PCR or RT-PCR。

AMPLIFICATION_REVERSE*
テンプレートの増幅用リバースプライマーの塩基配列

  Type: varchar(100)
  Example: GGATTCTGACTAACGAGC

配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:TRACE_TYPE_CODE=PCR or RT-PCR。

AMPLIFICATION_SIZE
プライマーペアによる増幅断片長

  Type: int
  Example: 500

AMPLIFICATION_SIZE にはAMPLIFICATION_FORWARD とAMPLIFICATION_REVERSEのプライマーペアによって増幅される断片の長さを塩基対数で記載します。TRACE_TYPE_CODE=PCR の場合はゲノム DNA,TRACE_TYPE_CODE=RT-PCR の場合は転写産物を増幅した断片長になります。

ANONYMIZED_ID
個人に対する匿名化された ID

  Type: varchar(100)
  Example: 2222anonym

ドナーの匿名性を保護するプロジェクトで使用します。多くの場合 Trace Archive の匿名化された ID と表現型情報が得られた個人の ID とを結びつけるアクセスが制限されたデータベースが存在します。

ATTEMPT
センターによって試みられたプロジェクトの回数 and/or Trace Archive への登録回数

  Type: tinyint(1-255)
  Example: 2

BASE_FILE
ベースコールが記載されたファイル名

  Type: varchar(200)
  Example: ./mytraces/123clone.fasta

trace ファイルがベースコールを含んでいない場合,ベースコールが含まれた別のファイルを登録します。BASE_FILE でファイルを指定します。trace (通常は scf) ファイル中のベースコール情報は BASE_FILE のもので上書きされます。BASE_FILE と trace ファイルのベースコールが同じ場合は BASE_FILE を登録しないでください。BASE_FILE とQUAL_FILE の両方を登録する場合は,あわせて peak index 情報をPEAK_FILE として別ファイルで登録します。

CENTER_NAME*
センター名の略称

  Type: varchar(50)
  Example: WUGSC

DDBJ Trace Archive にデータを登録する前にセンター名の略称を登録します。この略称は CENTER_NAME で使われます。登録されている CENTER_NAME の一覧:
http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?view=submitting_centers
Sequence Read Archive の center name とは別になります。

CENTER_PROJECT*
センター独自のプロジェクト名

  Type: varchar(100)
  Example: HBBB

CENTER_PROJECTはシークエンスセンター内部で使用するプロジェクト名です。この項目は関連する trace をまとめるのに役立ちます。

CHEMISTRY
シークエンス反応で使われたケミストリー

  Type: varchar(50)
  Example: BIGDYEV3.0

CHEMISTRY_TYPE
シークエンス反応で使われたケミストリーの種類

  Type: char(50)
  Example: P

CHEMISTRY_TYPEで使用可能な語句:
Primer
Terminator
p=primer
t=terminator

CHROMOSOME
trace が由来する染色体

  Type: varchar(8)
  Example: 11

CHROMOSOMEは trace が由来する染色体を示します。遺伝子名や cytogenetic position は染色体情報としては適していません。

CLIP_QUALITY_LEFT
信頼性評価に基づくリードの左クリップ位置 (塩基対数)

  Type: int
  Example: 56

CLIP_QUALITY_LEFTは信頼性が低いためクリップされるべきリードの始まりの部分です。ベースコールの信頼性が高い領域をその最初の塩基位置で示します。

CLIP_QUALITY_RIGHT
信頼性評価に基づくリードの右クリップ位置 (塩基対数)

  Type: int
  Example: 256

CLIP_QUALITY_RIGHTは信頼性が低いためクリップされるべきリードの終わりの部分です。ベースコールの信頼性が高い領域をその最後の塩基位置で示します。

CLIP_VECTOR_LEFT*
ベクター配列に基づくリードの左クリップ位置 (塩基対数)

  Type: int
  Example: 75

CLIP_VECTOR_LEFT はベクター配列に基づきクリップされるべきリードの始まりの部分です。非ベクター配列の最初の塩基の位置で示します。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です。 この情報は INSERT_FLANK_LEFT が記載されている場合,もしくは,[TRACE_TYPE_CODE](#TRACE_TYPE_CODE span>=PCR orRT-PCR の場合には省略できます。

CLIP_VECTOR_RIGHT*
ベクター配列に基づくリードの右クリップ位置 (塩基対数)

  Type: int
  Example: 275

CLIP_VECTOR_RIGHT はベクター配列に基づきクリップされるべきリードの終わりの部分です。非ベクター配列の最後の塩基の位置で示します 項目はほとんど全てのSTRATEGY と TRACE_TYPE_CODE の組み合わせで必須です。
この情報は INSERT_FLANK_RIGHT が記載されている場合,もしくは,TRACE_TYPE_CODE=PCR or RT-PCR の場合には省略できます。
注意: 多くのセンターではベクター配列解析と信頼性評価を一緒に行っており,1セットのクリップ情報しかない場合がありま の場合はCLIP_VECTOR_LEFTとCLIP_VECTOR_RIGHT に値を記入します。

CLONE_ID*
trace が由来するクローン名

  Type: varchar(30)
  Example: RP23-1123F10

CLONE_ID は個々の BAC,PAC や cDNA クローンの ID です。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合はstandard clone registry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従って記載します。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=cDNA;TRACE_TYPE_CODE=Any
STRATEGY=EST;TRACE_TYPE_CODE=Any
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONE;TRACE_TYPE_CODE=Any
STRATEGY=ENCODE;TRACE_TYPE_CODE=SHOTGUN;PrimerWalk; CLONEEND
STRATEGY=FINISHING;TRACE_TYPE_CODE=Any

CLONE_ID_LIST*
セミコロンで区切られたクローンのリスト (Strategy が PoolClone の場合)

  Type: varchar(30)
  Example: RP23-200A2;RP23-500P1

CLONE_ID_LISTは STRATEGY=PoolClone の場合にのみ必須です。この場合はセミコロンで区切ったクローンのリストを記載します。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合は standard cloneregistry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/) に従って記載します。
注意:リストに含まれるクローン数に制限はありませんが,個々のクローンのサイズは 30 バイトに制限されています。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です: STRATEGY=PoolClone;TRACE_TYPE_CODE=Any

COLLECTION_DATE*
環境サンプルが採取された日時 (例 Mar 2 2006 12:00AM)

  Type: datetime
  Example: Mar 2 2006 12:00AM

COLLECTION_DATEは環境サンプルが採取された日時を示します。
次の STRATEGYと TRACE_TYPE_CODEの組み合わせで必須です:
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=AnySTRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

CVECTOR_ACCESSION
クローニングベクター配列の DDBJ/EMBL/GenBank アクセッション番号

  Type: varchar(50)
  Example: AY451994

CVECTOR_ACCESSIONは使用されたクローニングベクターのアクセッション番号です。この番号はCLONE_IDに記入されたベクターに対応します。

CVECTOR_CODE
センターがクローニングベクターに付けたコード

  Type: varchar(50)
  Example: PBACE3.6

CVECTOR_CODEには登録者がクローニングベクターに付けたコードを記入します。使われた全てのクローニングベクターの配列は DDBJ/EMBL/GenBank に登録することが推奨されます。

DEPTH
環境サンプルが採取された深度 (メーター)

  Type: float
  Example: 10M

DEPTHは水圏や土壌から採取された環境サンプルで記載できます。この値が NULL のときはサンプルが環境の表面から採取されたものとみなされます。この項目は環境サンプルにのみ記載可能ですが必須ではありません。

ELEVATION
環境サンプルが採取された高度 (メーター)

  Type: float
  Example: 500

この値が NULL のときはサンプルは海水位で取得されたものとみなされます。この項目はいくつかの環境サンプルでのみ記載可能ですが必須ではありません。

ENVIRONMENT_TYPE*
環境サンプルが採取された環境の種類

  Type: varchar(250)
  Example: sea water

ENVIRONMENT_TYPEでは環境サンプルが取得された環境の種類を記載します。LATITUDE と LONGITUDEで地理上の位置を示せますが,ある位置には 環境が存在し得ます (土壌,泥,木の根など)。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=PoolClone;TRACE_TYPE_CODE=Any
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=Any

EXTENDED_DATA
EXTENDED_DATA block 中の<field>タグのなかに記載された任意の追加情報

  Type: varchar()
  Example:

<extended_data>
<field name=’SamplingSiteMonthChlorophyllLevel’>1.4 mg_mm</field>
<field name=’SamplingSiteYearlyChlorophyllLevel’>1.12 mg_mm</field>
<field name=’SamplingSiteYearlyChlorophyllLevelStdError’>0.19 mg_mm</field>
</extended_data>
‘=’ と区切り文字の ‘|’ は name とその値には使用できません。これらの記号の混入以外はチェックされません。

FEATURE_ID_FILE
チップ上の feature とその位置を記載したファイル

  Type: varchar(200)
  Example: ./mytraces/chip2.cdf

TRACE_TYPE_CODE=”CHIP”のとき FEATURE_ID_FILEでチップ上の feature の位置と配列を記載したファイルを指定します。

FEATURE_ID_FILE_NAME*
共通の FEATURE_ID_FILE (先に登録します) へのリファレンス

  Type: varchar(200)
  Example:

この項目は TRACE_TYPE_CODE=”CHIP” のときに必須です。

FEATURE_SIGNAL_FILE
チップ上の feature のシグナルと分散が記載されたファイル

  Type: varchar(200)
  Example: ./mytraces/chip2.signal

TRACE_TYPE_CODE=”CHIP”のときにチップ上の feature のシグナルと分散が記載されたファイルを FEATURE_SIGNAL_FILEで指定します。

FEATURE_SIGNAL_FILE_NAME*
共通の FEATURE_SIGNAL_FILE (先に登録します) へのリファレンス

  Type: varchar(200)
  Example:

この項目は TRACE_TYPE_CODE=”CHIP” のときに必須です。

GENE_NAME
遺伝子名や遺伝子の ID

  Type: varchar(100)
  Example: transporter 1

フリーテキスト。主に TRACE_TYPE_CODE=’Re-sequencing’ or’ENCODE’ のときに使われます。研究対象の遺伝子を遺伝子名や何らかの ID で参照します。

HI_FILTER_SIZE
環境サンプルを分取したフィルターで一番大きいサイズ

  Type: varchar(50)
  Example: 50 micron

HI_FILTER_SIZEは環境サンプルでのみ記載可能ですが必須ではありません。

HOST_CONDITION
環境サンプルが採取されたホストの状態

  Type: varchar(100)
  Example: HIV-positive

HOST_CONDITIONは環境サンプルでのみ記載可能でホストのコンディション (healthy, sick など) を記載します。

HOST_ID*
環境サンプルが取得されたホストに付けられた固有の ID

  Type: varchar(100)
  Example: yerkes pedigree #C0479 ‘Clint’

HOST_IDは環境サンプルでのみ記載可能でホストを特定するのに利用されます。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

HOST_LOCATION*
環境サンプルが採取されたホスト上の特定の場所

  Type: varchar(100)
  Example: rumen

HOST_LOCATIONには環境サンプルが採取されたホスト上の特定の場所,例えば dental plaque,hindgut,root surfaces を記載します。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

HOST_SPECIES*
環境サンプルが採取されたホスト

  Type: varchar(100)
  Example: Pan troglodytes

HOST_SPECIESは環境サンプルでのみ記載可能です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any

INDIVIDUAL_ID
trace が由来する個人やサンプルの ID

  Type: varchar(100)
  Example: NA12345

INDIVIDUAL_IDは trace と個人とを結び付けるセンター独自の ID です。この項目は主に population を対象とした研究で使用します。

INSERT_FLANK_LEFT*
クローニング部位の左に隣接する塩基配列

  Type: varchar(100)
  Example: AAGGTGCGATGCAGTGGCAGTAGCAGTGTCGACGTGACGATTCGTCCGGA

INSERT_FLANK_LEFT ではクローニング部位の左に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE で必須です。この項目は CLIP_VECTOR_LEFT がある場合には省略できますが,INSERT_FLANK_LEFT への記入を推奨しています。クローニングステップがない場合は ‘NONE’ と記入します。

INSERT_FLANK_RIGHT*
クローニング部位の右に隣接する塩基配列

  Type: varchar(100)
  Example: AAGGCGCGATGCAGTGAGCGAGGCTGACGTCGGCTAGCGTCGCGTCGGGT

INSERT_FLANK_RIGHT ではクローニング部位の右に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE で必須です。この項目は CLIP_VECTOR_RIGHT がある場合には省略できますが,INSERT_FLANK_RIGHT への記入を推奨しています。クローニングステップがない場合は ‘NONE’ と記入します。

INSERT_SIZE*
インサートの平均塩基配列長 (TEMPLATE_ID の値で参照されます)

  Type:int
  Example: 2000

INSERT_SIZEは配列決定されるクローンの期待されるインサート長を示します。あるライブラリーに対して見積もられたインサートの平均長に基づいて記入します。この情報は全ゲノムアセンブリなどの実験にとって重要です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=WGS
STRATEGY=Any;
TRACE_TYPE_CODE=WCS
STRATEGY=cDNA;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND

INSERT_STDEV*
INSERT_SIZE の標準偏差

  Type: int
  Example: 200

INSERT_STDEVはインサート長の標準偏差です。この値は概算値です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=WGS
STRATEGY=Any;
TRACE_TYPE_CODE=WCS
STRATEGY=cDNA;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND

LATITUDE*
サンプル採取地点の緯度 (standard GPS notation に基づく)

  Type: float
  Example: 54.736

環境サンプルの取得地点の緯度。緯度の範囲は [-90,90] で,赤道を 0 とし,赤道より北を正の値で,南を負の値で表します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Geo;TRACE_TYPE_CODE=Any

LIBRARY_ID*
CLONE_ID に記載されたクローンのソースライブラリー

  Type: varchar(100)
  Example: RP23

LIBRARY_ID にはクローンのソースライブラリーを記載します。多くのゲノムライブラリーはClone Registry (http://www.ncbi.nlm.nih.gov/clone)に既に登録されており,これらのライブラリーについてはstandard nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従った名称を使用します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=cDNA;TRACE_TYPE_CODE=Any
STRATEGY=EST;TRACE_TYPE_CODE=Any
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONE;TRACE_TYPE_CODE=Any
STRATEGY=ENCODE;TRACE_TYPE_CODE=SHOTGUN;PrimerWalk; CLONEEND

LONGITUDE*
サンプル採取地点の経度 (standard GPS notation に基づく)

  Type: float
  Example: -86.403

環境サンプルデータの取得地点の経度。グリニッジ子午線を 0° として,子午線よりも東は +180°,西は -180° です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=Any

LO_FILTER_SIZE
環境サンプルを分取したフィルターで一番小さいサイズ

  Type: varchar(50)
  Example: 25 micron

LO_FILTER_SIZEは環境サンプルでのみ記載可能ですが必須ではありません。

NCBI_PROJECT_ID
INSDC によって管理されている BioProject ID

  Type: int
  Example: 7

NCBI_PROJECT_IDは trace と BioProject database を結びつけ,プロジェクト単位でのデータ取得を可能にします。シークエンス拠点はゲノム配列データを登録する前に DDBJ BioProject にプロジェクトを登録することができます。プロジェクト登録の時点で配列データを登録する必要はありません。

ORGANISM_NAME*
BARCODE プロジェクトにおいて trace が由来する生物種名

  Type: varchar(100)
  Example: Acanthocybium solandri

ORGANISM_NAMEは BARCODE データにおいてリードを生物種ごとに分類するのに使われます。生物種名はTaxonomy Browser に従って記載します。全ての BARCODE データではSPECIES_CODE=”BARCODESPECIES” になります。STRATEGY=BARCODE の場合に必須です。

PEAK_FILE
peak value が記載されたファイル

  Type: varchar(200)
  Example: ./mytraces/123clone.peak 説明については

BASE_FILEをご覧ください。

PH
環境サンプルが採取された場所の pH

  Type: float
  Example: 7.2

PHは環境サンプルでのみ記載可能ですが必須ではありません。

PICK_GROUP_ID
同じ時に取得された trace をまとめる ID

  Type: int
  Example: 939065

PLACE_NAME
生物学的サンプルが得られた地点の国名 and/or 一般に通用する名称

  Type: varchar(250)
  Example: Octopus

Springs PLACE_NAMEは環境サンプルでのみ記載可能ですが必須ではありません。

PLATE_ID
登録者が付けたプレート ID

  Type: varchar(32)
  Example: 203

PLATE_IDとWELL_IDはシークエンステンプレートが保存された場所を指し示します(CLONE_ID に記載されたクローンの保存場所ではありません)。この情報はこぼれたり何かが混入したプレートを同定するのに役立ちます。プレートを使用しない実験の場合は ‘0’ を記入します。

POPULATION_ID
登録者が trace (もしくは trace のグループ) が由来する population に付けた ID

  Type: varchar(100)
  Example: CEPH

POPULATION_IDは集団を特定するのに使われます。この情報は population study (通常 STRATEGY=SNP) で使用されます。

PREP_GROUP_ID
同じ時に調整された trace をまとめる ID

  Type:varchar(30)
  Example: A2

PRIMER
シークエンス反応で使われたプライマー配列

  Type: varchar(200)
  Example:GAATACCTACGATCGCC

PRIMERにはシークエンスプライマーの塩基配列を記入します。センターが多種類のプライマーを使っている場合はPRIMER_CODE に primer code のリストを記載します。

PRIMER_CODE
シークエンスプライマーに対するコード

  Type: varchar(30)
  Example: Sp6

PRIMER_LIST*
マッピング実験 (例 AFLP) で使われた ‘;’ で区切られたプライマーのリスト

  Type: varchar(100)
  Example:AAGGTCTGCGCGTGTC;AGCTGCGTACGTAATCG;

この項目はSTRATEGY=”AFLP” と TRACE_TYPE_CODE=”PCR” の組み合わせのときに必須です。

PROGRAM_ID*
trace ファイルを作成するのに使われたプログラム

  Type: varchar(100)
  Example: phred-19990722h

ベースコールに使われたプログラムをフリーテキストで記載します。プログラムの名前,バージョン番号や日付はとても有用です。
例:

  • phred-19980904e
  • abi-3.1
  • ATQA
  • TraceTuner
  • Licor
  • Megabase
  • Beckman
PROJECT_NAME
異なるセンターからの trace をまとめる共通したプロジェクト名

  Type: varchar(50)
  Example: New

Project シークエンス拠点は共通したプロジェクト名を用いることで,あるプロジェクトから産みだされる全ての trace をグループ化することができます。記載可能なプロジェクト名は制限されています。この項目を利用する場合は事前に DDBJ Trace Archive に連絡し,全てのプロジェクト参加者が同意しているプロジェクト名を伝えます。

QUAL_FILE
quality score を含んだファイル

  Type: varchar(200)
  Example: ./mytraces/123clone.fasta.qs

trace ファイルが quality score を含んでいない場合,quality score が含まれた別のファイルを登録します。QUAL_FILE でファイルを指定します。trace (通常は scf) ファイル中の quality score は QUAL_FILE のもので上書きされます。QUAL_FILE と trace ファイルの quality score が同じ場合は QUAL_FILE を登録しないでください。BASE_FILE とQUAL_FILE の両方を登録する場合は,あわせて peak index 情報をPEAK_FILE として別ファイルで登録します。

REFERENCE_ACCESSION*
リシークエンスプロジェクトで使用されるリファレンス配列のアクセッション番号 (配列を特定するためにバージョン番号も併記します)。 Comparative study の場合はプライマーデザインの情報も付け加えます。

  Type: varchar(50)
  Example: NT_029829.1

次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing;Comparative TRACE_TYPE_CODE=Any

REFERENCE_ACC_MAX*
リシークエンスや比較ゲノム解析における amplicon の終了位置

  Type: int
  Example: 30929

この項目は[REFERENCE_ACCESSIOxx(#REFERENCE_ACCESSION)の accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=SHOTGUN; PCR;RT-PCR

REFERENCE_ACC_MIN*
リシークエンスや比較ゲノム解析における amplicon の開始位置

  Type: int
  Example: 29829

この項目はREFERENCE_ACCESSIONの accession.versionで特定されたリファレンス配列の開始座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=SHOTGUN; PCR;RT-PCR

REFERENCE_OFFSET*
リシークエンス解析でスタートの位置を決める REFERENCE_ACCESSION で指定された配列におけるオフセット値

  Type: int
  Example: 1520899

この項目はREFERENCE_ACCESSIONの accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=CHIP

REFERENCE_SET_MAX
リシークエンスされた領域全体の終了位置。この領域は複数の amplicon を含むことがあります

  Type: int
  Example: 29829

この項目にはREFERENCE_ACCESSIONの accession.versionで指定されたリシークエンスされた領域全体の終了位置を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。 REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。

REFERENCE_SET_MIN
リシークエンスされた領域全体の開始位置。この領域は複数の amplicon を含むことがあります

  Type: int
  Example: 29829

この項目にはREFERENCE_ACCESSIONの accession.versionで指定されたリシークエンスされた領域全体の開始位置を記入します。 スタート を (0ではなく) 1とした塩基対座標で記入します。REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。

RUN_DATE
シークエンス反応が行われた日付

  Type: datetime
  Example: 2000-10-28

RUN_GROUP_ID
同じシークエンサーでランされた trace につける ID

  Type: varchar(30)
  Example: group2

RUN_LANE
trace のレーン,もしくはキャピラリ

  Type: int
  Example: 1
RUN_LANEには trace が得られたレーンやキャピラリを記入します。

RUN_MACHINE_ID
trace が得られたシークエンサーの ID

  Type: varchar(30)
  Example: machine2

RUN_MACHINE_TYPE
trace が得られたシークエンサーのモデル名

  Type: varchar(30)
  Example: ABI 310

SALINITY
環境サンプルが採取された場所の千分率で表された塩濃度

  Type: float
  Example: 20
SALINITYは環境サンプルでのみ記載可能ですが必須ではありません。

SEQ_LIB_ID*
シークエンスに使用された M13/PUC ライブラリー

  Type: varchar(255)
  Example: 22194

シークエンスに用いられた M13/PUC ベースのクローンに対してセンターが独自に付けた ID を記入します。この ID で trace を ligation event でまとめることができるようになります。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=SHOTGUN
STRATEGY=Any;TRACE_TYPE_CODE=WGS/WCS

SOURCE_TYPE*
DNA のソース

  Type: varchar(50)
  Example: GENOMIC DNA

SOURCE_TYPEに記載可能なコードとその説明は以下です:

  • G=Genomic DNA (ゲノム DNA からの PCR 産物を含む)
  • N=Non Genomic DNA (EST, cDNA, RT-PCR, screenedlibraries)
  • VIRAL RNA=Viral RNA
  • SYNTHETIC=Synthetic DNA

記載可能なコードは G,N,GENOMIC,NON GENOMIC,VIRAL RNA,SYNTHETIC です。

SPECIES_CODE*
trace が得られた生物種

  Type: varchar(100)
  Example: Homo sapiens

SPECIES_CODEは分類学上の生物種名でリードを分類するのに使われます。この項目はコントロールされています。
Trace Archive に含まれている生物種名のリスト:http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=stat&f=xml_list_species&m=obtain&s=speciesリストに含まれていない生物を登録する場合は,データを投稿する前に DDBJ Trace Archive に連絡します。trace が由来する生物を分類できない場合は,環境サンプルには ‘ENVIRONMENTAL SEQUENCE’ を人工物には ‘ARTIFICIAL SEQUENCE’ を使用することができます。

STRAIN*
trace が由来する strain

  Type: varchar(50)
  Example: C57BL/6J

STRATEGY=”SNP” のときに必須です。

STRATEGY*
実験的な strategy

  Type: varchar(50)
  Example: MODEL VERIFY

trace を得る上で採用された実験上の STRATEGY。値はコントロールされていますが,登録者はリストへの新しい用語の追加を申請することができます。

記載可能な用語 (このリストは拡張され続けています):

  • AFLP: Amplified Fragment Length Polymorphism
  • BARCODE: DNA sequence analysis of a uniform target gene toenable species identification
  • CCS: Concatenated cDNA sequencing
  • cDNA: Sequences generated in the process of sequencing cDNAclones
  • CF-S: Cot-filtered single/low-copy genomic DNA
  • CF-M: Cot-filtered moderately repetitive genomic DNA
  • CF-H: Cot-filtered highly repetitive genomic DNA
  • CF-T: Cot-filtered theoretical single-copy DNA
  • CLONE: Genomic clone based (hierarchical) sequencing
  • CLONEEND: Sequences generated from the end of a clone(BAC/PAC/Fosmid or cDNA)
  • Comparative: Sequences obtained using primers design fromrelated species
  • CTS: Concatenated Tag Sequencing
  • Env Sample-GEO: Geographically generated environmentalsample
  • Env Sample-Host: Environmental samples collected from aspecific host
  • EST: single pass sequencing of cDNA templates
  • FINISHING: a read specifically made for finishing, could beeither BAC finishing or Whole Genome Assembly (WGA) finishing
  • MODEL VERIFY: Sequences obtained to verify proposed genemodels
  • PoolClone: Pools of clones (BACs mostly)
  • SNP: Reads used for SNP identification
  • TARGETED LOCUS: Sequences obtained from templates generated byprimers designed to amplify a specific genetic locus
  • Re-sequencing: Re-sequencing of targeted genomic regions
  • RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
  • WGA: Whole Genome Assembly
SUBMISSION_TYPE*
submission の種類

  Type: varchar(50)
  Example: NEW

記載可能な値:

  • NEW: 新しいデータを登録するとき
  • UPDATE:trace とメタデータを更新するとき。以前のデータは TI とともに保存され,更新された trace には新しい TI が付与され active になります。
  • UPDATEINFO:登録済みの trace を変えることなくメタデータのみを更新するとき
  • WITHDRAW:trace を withdraw するとき
SVECTOR_ACCESSION
シークエンスベクターの DDBJ/EMBL/GenBank アクセッション番号

  Type: varchar(50)
  Example: X52325

SVECTOR_CODE
センターが独自にシークエンスベクターに付けたコード

  Type: varchar(50)
  Example: pBluescript SK(+)

TEMPERATURE
環境サンプルが採取された地点の温度 (oC)

  Type: float
  Example: 30

TEMPERATUREは環境サンプルでのみ記載可能ですが必須ではありません。

TEMPLATE_ID
登録者がシークエンスしたテンプレートに付けた ID

  Type: varchar(50)
  Example: HBBBA2211

TEMPLATE_IDは実際にシークエンスされたテンプレートを同定するのに使われます。この情報と TRACE_END を組み合わせ,ある2つの trace が同じクローンの両側から得られた ‘mate_pairs’ かどうか判断しています。

TRACE_END
リードに含まれるテンプレートの向き

  Type: varchar(50)
  Example: F

TRACE_END は以下の値を持てます:

  • F: FORWARD
  • R: REVERSE
  • N: UNKNOWN
TRACE_FILE*
ルートからの trace ファイルまでの絶対パス

  Type: varchar(200)
  Example: ./traces/TRACE001.scf

TRACE_FORMAT*
trace のファイル形式

  Type: varchar(20)
  Example: scf

TRACE_FORMATは以下の値を持てます:

  • SCF - DNA シークエンス装置から出力される標準的なフォーマット
  • ABI - ABI-tracefile は trace データと塩基配列を含むバイナリーファイルです
TRACE_NAME*
登録者が trace に付ける名前

  Type: varchar(250)
  Example: HBBBA1U2211

TRACE_NAMEはセンター単位でユニークであればよく,センター間でユニークである必要はありません。Trace Archive では TRACE_NAME と CENTER_NAME の組み合わせがユニークなキーとして働きます。

TRACE_TYPE_CODE*
trace が取得されたシークエンス strategy

  Type: varchar(50)
  Example: wgs

TRACE_TYPE_CODE には trace を得るのに使われたシークエンス strategy を記入します。

取り得る値:

  • CHIP: Sequences obtained using microarrays (also called DNAchips or gene chips)
  • CLONEEND: Sequences generated from the end of a large insert(BAC/PAC/Fosmid) or cDNA clone
  • EST: Single Pass Expressed Sequence Tag
  • HTP SELEX: High throughput SELEX
  • OTHER: Other than PCR, PrimerWalk, SHOTGUN or TRANSPOSON forFINISHING STRATEGY
  • PCR: Sequences obtained using templates generated by genomicPolymerase Chain Reaction
  • PrimerWalk: Sequences generated through a primer walkingstep
  • RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
  • SHOTGUN: Shotgun sequencing of clones (genomic or cDNA)
  • TRANSPOSON: Sequences obtained using templates generated bytransposons
  • WCS: Whole Chromosome Shotgun
  • WGS: Whole Genome Shotgun
TRANSPOSON_ACC*
シークエンステンプレートを生成するのに使われたトランスポゾンの DDBJ/EMBL/GenBank アクセッション番号

  Type: varchar(50)
  Example: X00913

次の STRATEGY と TRACE_TYPE_CODE の組み合わせの時に必須です: STRATEGY=Any;TRACE_TYPE_CODE=TRANSPOSON

TRANSPOSON_CODE*
シークエンステンプレートを生成するのに使われたトランスポゾンにセンターが付けたコード

  Type: varchar(50)
  Example: Mu transposon

次の STRATEGY と TRACE_TYPE_CODE の組み合わせの時に必須です: STRATEGY=Any;TRACE_TYPE_CODE=TRANSPOSON

WELL_ID
シークエンス反応が行われたウェルにセンターが付けた ID

  Type: varchar(50)
  Example: A1

WELL_ID は PLATE_ID と一緒にシークエンス反応が行われた場所を特定するのに利用されます (WELL_ID も参照)。通常シークエンス反応は標準的な 96 もしくは 384 穴プレートで行われます (下の標準的なウェルの配置図を参照)。
標準的な 96 穴プレートの配置
標準的な 96 穴プレートの配置
標準的な 384 穴プレートの配置
標準的な 384 穴プレートの配置

Internal Fields List

BASECALL_LENGTH
trace の塩基長

  Type: int
  Example: 396

BASES_20
quality score が 20 を超える塩基数

  Type: smallint
  Example: 50

注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。

BASES_40
quality score が 40 を超える塩基数

  Type: smallint
  Example: 50

注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。

BASES_60
quality score が 60 を超える塩基数

  Type: smallint
  Example: 50

注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。

LOAD_DATE
データがロードされた日付

  Type: smalldatetime
  Example: Jan 8 2001 11:59AM

MATE_PAIR
同じテンプレートの逆方向から得られたリードの TI 番号

  Type: int
  Example: 203682255 MATE PAIR

は同じテンプレートの両方向 (FORWARD と REVERSE) から得られたリード。

REPLACED_BY
“active” な TI を置き換えた TI

  Type: int
  Example: 304753779

この項目は最新のデータセットを指し示します。trace が更新された場合REPLACED_BY は新しいTIが入力されます。メタデータのみが更新された場合は replaced_by=0 で表示されません。

STATE
trace の status

  Type: varchar
  Example: active

取り得る値:

  • active
  • updated
  • withdrawn
TAXID
NCBI Taxonomy ID

  Type: int
  Example: 10090

DDBJ Trace Archive と NCBI Taxonomy Browser とを結びつけます。

TI
trace 固有のアクセッション番号

  Type: int
  Example: 304753779

trace がデータベースにロードされた時点で TI が付与されます。どのようなレコードでも TI で取得できます。

UPDATE_DATE
データが update/replace された日時

  Type: smalldatetime
  Example: Jul 19 2001 3:48PM

最後に更新された日時が記録されます。

trace データの登録

ヒトを対象とした研究データの登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者) の情報・プライバシーは,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている必要があります。
原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。

TI 番号

DDBJ Trace Archive (DTA) への登録にはメタデータと trace ファイルが必要です。 ユニークなアクセッション番号 (TI 番号) は trace データが NCBI Trace Archive に登録されるときに割り振られます。 TI 番号が発行されたデータは即日公開されます。

TI 番号発行後,データは即日公開されます。

登録に必要なファイル

テキストファイル (TRACEINFO ファイル) に trace データに関するメタデータを記述し,trace ファイルの場所を指定します。 トップディレクトリを作成し,全てのメタデータファイルをトップディレクトリ下に配置します。 また trace ファイルは,トップディレクトリ下に1つ以上のディレクトリを作成し,その内に配置します。 trace ファイル (SCF,ABI フォーマットのどちらの場合 も) はトップレベルではなく,サブディレクトリのなかに配置されている必要があります。 サブディレクトリ名 は trace やプロジェクトの名前を使うことを推奨します。 さらにサブディレクトリを作成し trace をグループに分けることができます。

以下は登録ディレクトリの構成例です。

登録ディレクトリの構成例

TOP_DIRECTORY/
TOP_DIRECTORY/TRACEINFO
TOP_DIRECTORY/traces
TOP_DIRECTORY/traces/FLJ/
TOP_DIRECTORY/traces/FLJ/FLJA1U0001.scf
TOP_DIRECTORY/traces/FLJ/FLJA1U0002.scf
TOP_DIRECTORY/traces/FLJ/FLJA1U0003.scf

メタデータファイルは XML かタブ区切りテキストファイル形式にします。 STRATEGY と TRACE_TYPE_CODE の組み合わせで必須になるメタデータ項目一覧は Validation Table をご覧ください。どちらの形式のメタデータでも最初に共通項目のセクションを含めることができます。 このセクションには各 trace に共通する項目を記載します。

以下は TRACEINFO メタデータファイルの例です。

TRACEINFO xml ファイルの例

<?xml version="1.0"?>
<trace_volume>
   <common_fields>
      <center_name>CENTER NAME ACRONYM IS HERE</center_name>
      <center_project>FLJ</center_project>
      <source_type>N</source_type>
      <species_code>HOMO SAPIENS</species_code>
      <strategy>EST</strategy>
      <submission_type>NEW</submission_type>
      <trace_format>SCF</trace_format>
      <trace_type_code>EST</trace_type_code>
   </common_fields>
   <trace>
      <trace_name>F-3NB691000020</trace_name>
      <trace_file>./traces/F-3NB691000020.scf</trace_file>
      <clone_id>3NB691000020</clone_id>
      <library_id>3NB691</library_id>
      <template_id>3NB691000020</template_id>
   </trace>
   <trace>
      <trace_name>F-3NB691000033</trace_name>
      <trace_file>./traces/F-3NB691000033.scf</trace_file>
      <clone_id>3NB691000033</clone_id>
      <library_id>3NB691</library_id>
      <template_id>3NB691000033</template_id>
   </trace>
     --- more information ---
</trace_volume>

TRACEINFO タブ区切りテキストファイルの例

center_name = CENTER NAME ACRONYM IS HERE
center_project = FLJ
source_type = N
species_code = HOMO SAPIENS
strategy = EST
submission_type = NEW
trace_format = SCF
trace_type_code = EST
trace_name  clone_id    library_id  template_id trace_file
F-3NB691000020  3NB691000020    3NB691  3NB691000020    ./traces/F-3NB691000020.scf
F-3NB691000033  3NB691000033    3NB691  3NB691000033    ./traces/F-3NB691000033.scf
--- more information ---

アカウントの取得

DDBJ 登録用アカウントを取得します。

登録用ファイルのアップロード

DTA チームに連絡し,登録用ディレクトリの作成を依頼します。 マニュアルに従いファイルを SCP で転送します。

登録ディレクトリの例

submission/submitter_id/dta/dta_submitter_id-0001

DTA の登録用ディレクトリは DDBJ Sequence Read Archive とは別になります。

登録の完了

登録の完了後,登録者が公開を指示するまで DTA はデータを非公開にします。 データ公開の指示があれば DTA は NCBI Trace Archive にデータをアップロードします。データが NCBI Trace Archive にロードされると TI 番号が発行されデータは公開されます。

TI 番号の発行とデータ公開は同時になります。

データの更新

データを更新するときは DTA チームまでご連絡ください。