Trace Archive
Trace Archive
Trace Archive は閉鎖されました。
trace データのアクセス方法は Access Trace Data をご覧ください。
例 TI 番号 2282248605
curl “https://www.ncbi.nlm.nih.gov/Traces/sra-reads-be/fasta?ti=2282248605&retmode=text”
キャピラリシークエンスデータは DRA に登録することができます。登録する場合、Experiment Instrument でキャピラリシークエンサーを選択します。
登録例 DRX395641-DRX395673
Trace Archive の概要
DDBJ Trace Archive (DTA) は,配列決定プロジェクトからのシングルパスリードの DNA sequence chromatograms (traces), base calls, quality estimates のためのデータベースです。 Trace Archive は International Nucleotide Sequence Database Collaboration (INSDC) のメンバーとして,DDBJ,NCBI と EBI が国際協力して運営しています。NCBI Trace Archive が ID を発行管理しています。 DTA から登録された trace データは NCBI Trace Archive で検索,取得することができます。
trace データは DDBJ Sequence Read Archive で受付けています。特に理由がない限り DRA に登録してください。
メタデータ
必要な項目は STRATEGY と TRACE_TYPE_CODE の組み合わせで決まります。 メタデータは NCBI Trace Archive で検索することができます。
必須項目は Validation Table で確認してください。
必須*
STRATEGY と TRACE_TYPE_CODE の組み合わせによっては必須 *
Metadata Field List
- ACCESSION
- DDBJ/EMBL/GenBank アクセッション番号
Type: varchar(30)
Example: AC22227ACCESSION は配列データを配列データベース (DDBJ/EMBL/GenBank) に登録することで割り振られます。いくつかの種類の trace (特に WGS) では記載できません。アクセッション番号により Trace Archive の1次配列データと配列データベースの2次配列データが結び付きます。
- AMPLIFICATION_FORWARD*
- テンプレートの増幅用フォワードプライマーの塩基配列
Type: varchar(100)
Example: GGATTCTGACTAACGAGC配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:TRACE_TYPE_CODE=PCR or RT-PCR。
- AMPLIFICATION_REVERSE*
- テンプレートの増幅用リバースプライマーの塩基配列
Type: varchar(100)
Example: GGATTCTGACTAACGAGC配列決定のために用いられたテンプレート増幅用プライマーの配列を記載します。次の場合に必須です:TRACE_TYPE_CODE=PCR or RT-PCR。
- AMPLIFICATION_SIZE
- プライマーペアによる増幅断片長
Type: int
Example: 500AMPLIFICATION_SIZE にはAMPLIFICATION_FORWARD とAMPLIFICATION_REVERSEのプライマーペアによって増幅される断片の長さを塩基対数で記載します。TRACE_TYPE_CODE=PCR の場合はゲノム DNA,TRACE_TYPE_CODE=RT-PCR の場合は転写産物を増幅した断片長になります。
- ANONYMIZED_ID
- 個人に対する匿名化された ID
Type: varchar(100)
Example: 2222anonymドナーの匿名性を保護するプロジェクトで使用します。多くの場合 Trace Archive の匿名化された ID と表現型情報が得られた個人の ID とを結びつけるアクセスが制限されたデータベースが存在します。
- ATTEMPT
- センターによって試みられたプロジェクトの回数 and/or Trace Archive への登録回数
Type: tinyint(1-255)
Example: 2
- BASE_FILE
- ベースコールが記載されたファイル名
Type: varchar(200)
Example: ./mytraces/123clone.fastatrace ファイルがベースコールを含んでいない場合,ベースコールが含まれた別のファイルを登録します。BASE_FILE でファイルを指定します。trace (通常は scf) ファイル中のベースコール情報は BASE_FILE のもので上書きされます。BASE_FILE と trace ファイルのベースコールが同じ場合は BASE_FILE を登録しないでください。BASE_FILE とQUAL_FILE の両方を登録する場合は,あわせて peak index 情報をPEAK_FILE として別ファイルで登録します。
- CENTER_NAME*
- センター名の略称
Type: varchar(50)
Example: WUGSCDDBJ Trace Archive にデータを登録する前にセンター名の略称を登録します。この略称は CENTER_NAME で使われます。登録されている CENTER_NAME の一覧:
http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?view=submitting_centers
Sequence Read Archive の center name とは別になります。
- CENTER_PROJECT*
- センター独自のプロジェクト名
Type: varchar(100)
Example: HBBBCENTER_PROJECTはシークエンスセンター内部で使用するプロジェクト名です。この項目は関連する trace をまとめるのに役立ちます。
- CHEMISTRY
- シークエンス反応で使われたケミストリー
Type: varchar(50)
Example: BIGDYEV3.0
- CHEMISTRY_TYPE
- シークエンス反応で使われたケミストリーの種類
Type: char(50)
Example: PCHEMISTRY_TYPEで使用可能な語句:
Primer
Terminator
p=primer
t=terminator
- CHROMOSOME
- trace が由来する染色体
Type: varchar(8)
Example: 11CHROMOSOMEは trace が由来する染色体を示します。遺伝子名や cytogenetic position は染色体情報としては適していません。
- CLIP_QUALITY_LEFT
- 信頼性評価に基づくリードの左クリップ位置 (塩基対数)
Type: int
Example: 56CLIP_QUALITY_LEFTは信頼性が低いためクリップされるべきリードの始まりの部分です。ベースコールの信頼性が高い領域をその最初の塩基位置で示します。
- CLIP_QUALITY_RIGHT
- 信頼性評価に基づくリードの右クリップ位置 (塩基対数)
Type: int
Example: 256CLIP_QUALITY_RIGHTは信頼性が低いためクリップされるべきリードの終わりの部分です。ベースコールの信頼性が高い領域をその最後の塩基位置で示します。
- CLIP_VECTOR_LEFT*
- ベクター配列に基づくリードの左クリップ位置 (塩基対数)
Type: int
Example: 75CLIP_VECTOR_LEFT はベクター配列に基づきクリップされるべきリードの始まりの部分です。非ベクター配列の最初の塩基の位置で示します。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です。 この情報は INSERT_FLANK_LEFT が記載されている場合,もしくは,[TRACE_TYPE_CODE](#TRACE_TYPE_CODE span>=PCR orRT-PCR の場合には省略できます。
- CLIP_VECTOR_RIGHT*
- ベクター配列に基づくリードの右クリップ位置 (塩基対数)
Type: int
Example: 275CLIP_VECTOR_RIGHT はベクター配列に基づきクリップされるべきリードの終わりの部分です。非ベクター配列の最後の塩基の位置で示します 項目はほとんど全てのSTRATEGY と TRACE_TYPE_CODE の組み合わせで必須です。
この情報は INSERT_FLANK_RIGHT が記載されている場合,もしくは,TRACE_TYPE_CODE=PCR or RT-PCR の場合には省略できます。
注意: 多くのセンターではベクター配列解析と信頼性評価を一緒に行っており,1セットのクリップ情報しかない場合がありま の場合はCLIP_VECTOR_LEFTとCLIP_VECTOR_RIGHT に値を記入します。
- CLONE_ID*
- trace が由来するクローン名
Type: varchar(30)
Example: RP23-1123F10CLONE_ID は個々の BAC,PAC や cDNA クローンの ID です。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合はstandard clone registry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従って記載します。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=cDNA;TRACE_TYPE_CODE=Any
STRATEGY=EST;TRACE_TYPE_CODE=Any
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONE;TRACE_TYPE_CODE=Any
STRATEGY=ENCODE;TRACE_TYPE_CODE=SHOTGUN;PrimerWalk; CLONEEND
STRATEGY=FINISHING;TRACE_TYPE_CODE=Any
- CLONE_ID_LIST*
- セミコロンで区切られたクローンのリスト (Strategy が PoolClone の場合)
Type: varchar(30)
Example: RP23-200A2;RP23-500P1CLONE_ID_LISTは STRATEGY=PoolClone の場合にのみ必須です。この場合はセミコロンで区切ったクローンのリストを記載します。クローンが Clone Registry (http://www.ncbi.nlm.nih.gov/clone/) に登録されている場合は standard cloneregistry nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/) に従って記載します。
注意:リストに含まれるクローン数に制限はありませんが,個々のクローンのサイズは 30 バイトに制限されています。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です: STRATEGY=PoolClone;TRACE_TYPE_CODE=Any
- COLLECTION_DATE*
- 環境サンプルが採取された日時 (例 Mar 2 2006 12:00AM)
Type: datetime
Example: Mar 2 2006 12:00AMCOLLECTION_DATEは環境サンプルが採取された日時を示します。
次の STRATEGYと TRACE_TYPE_CODEの組み合わせで必須です:
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=AnySTRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any
- CVECTOR_ACCESSION
- クローニングベクター配列の DDBJ/EMBL/GenBank アクセッション番号
Type: varchar(50)
Example: AY451994CVECTOR_ACCESSIONは使用されたクローニングベクターのアクセッション番号です。この番号はCLONE_IDに記入されたベクターに対応します。
- CVECTOR_CODE
- センターがクローニングベクターに付けたコード
Type: varchar(50)
Example: PBACE3.6CVECTOR_CODEには登録者がクローニングベクターに付けたコードを記入します。使われた全てのクローニングベクターの配列は DDBJ/EMBL/GenBank に登録することが推奨されます。
- DEPTH
- 環境サンプルが採取された深度 (メーター)
Type: float
Example: 10MDEPTHは水圏や土壌から採取された環境サンプルで記載できます。この値が NULL のときはサンプルが環境の表面から採取されたものとみなされます。この項目は環境サンプルにのみ記載可能ですが必須ではありません。
- ELEVATION
- 環境サンプルが採取された高度 (メーター)
Type: float
Example: 500この値が NULL のときはサンプルは海水位で取得されたものとみなされます。この項目はいくつかの環境サンプルでのみ記載可能ですが必須ではありません。
- ENVIRONMENT_TYPE*
- 環境サンプルが採取された環境の種類
Type: varchar(250)
Example: sea waterENVIRONMENT_TYPEでは環境サンプルが取得された環境の種類を記載します。LATITUDE と LONGITUDEで地理上の位置を示せますが,ある位置には 環境が存在し得ます (土壌,泥,木の根など)。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=PoolClone;TRACE_TYPE_CODE=Any
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=Any
- EXTENDED_DATA
- EXTENDED_DATA block 中の<field>タグのなかに記載された任意の追加情報
Type: varchar()
Example:<extended_data>
<field name=’SamplingSiteMonthChlorophyllLevel’>1.4 mg_mm</field>
<field name=’SamplingSiteYearlyChlorophyllLevel’>1.12 mg_mm</field>
<field name=’SamplingSiteYearlyChlorophyllLevelStdError’>0.19 mg_mm</field>
</extended_data>
‘=’ と区切り文字の ‘|’ は name とその値には使用できません。これらの記号の混入以外はチェックされません。
- FEATURE_ID_FILE
- チップ上の feature とその位置を記載したファイル
Type: varchar(200)
Example: ./mytraces/chip2.cdfTRACE_TYPE_CODE=”CHIP”のとき FEATURE_ID_FILEでチップ上の feature の位置と配列を記載したファイルを指定します。
- FEATURE_ID_FILE_NAME*
- 共通の FEATURE_ID_FILE (先に登録します) へのリファレンス
Type: varchar(200)
Example:この項目は TRACE_TYPE_CODE=”CHIP” のときに必須です。
- FEATURE_SIGNAL_FILE
- チップ上の feature のシグナルと分散が記載されたファイル
Type: varchar(200)
Example: ./mytraces/chip2.signalTRACE_TYPE_CODE=”CHIP”のときにチップ上の feature のシグナルと分散が記載されたファイルを FEATURE_SIGNAL_FILEで指定します。
- FEATURE_SIGNAL_FILE_NAME*
- 共通の FEATURE_SIGNAL_FILE (先に登録します) へのリファレンス
Type: varchar(200)
Example:この項目は TRACE_TYPE_CODE=”CHIP” のときに必須です。
- GENE_NAME
- 遺伝子名や遺伝子の ID
Type: varchar(100)
Example: transporter 1フリーテキスト。主に TRACE_TYPE_CODE=’Re-sequencing’ or’ENCODE’ のときに使われます。研究対象の遺伝子を遺伝子名や何らかの ID で参照します。
- HI_FILTER_SIZE
- 環境サンプルを分取したフィルターで一番大きいサイズ
Type: varchar(50)
Example: 50 micronHI_FILTER_SIZEは環境サンプルでのみ記載可能ですが必須ではありません。
- HOST_CONDITION
- 環境サンプルが採取されたホストの状態
Type: varchar(100)
Example: HIV-positiveHOST_CONDITIONは環境サンプルでのみ記載可能でホストのコンディション (healthy, sick など) を記載します。
- HOST_ID*
- 環境サンプルが取得されたホストに付けられた固有の ID
Type: varchar(100)
Example: yerkes pedigree #C0479 ‘Clint’HOST_IDは環境サンプルでのみ記載可能でホストを特定するのに利用されます。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any
- HOST_LOCATION*
- 環境サンプルが採取されたホスト上の特定の場所
Type: varchar(100)
Example: rumenHOST_LOCATIONには環境サンプルが採取されたホスト上の特定の場所,例えば dental plaque,hindgut,root surfaces を記載します。
次の STRATEGYと TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any
- HOST_SPECIES*
- 環境サンプルが採取されたホスト
Type: varchar(100)
Example: Pan troglodytesHOST_SPECIESは環境サンプルでのみ記載可能です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Host; TRACE_TYPE_CODE=Any
- INDIVIDUAL_ID
- trace が由来する個人やサンプルの ID
Type: varchar(100)
Example: NA12345INDIVIDUAL_IDは trace と個人とを結び付けるセンター独自の ID です。この項目は主に population を対象とした研究で使用します。
- INSERT_FLANK_LEFT*
- クローニング部位の左に隣接する塩基配列
Type: varchar(100)
Example: AAGGTGCGATGCAGTGGCAGTAGCAGTGTCGACGTGACGATTCGTCCGGAINSERT_FLANK_LEFT ではクローニング部位の左に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE で必須です。この項目は CLIP_VECTOR_LEFT がある場合には省略できますが,INSERT_FLANK_LEFT への記入を推奨しています。クローニングステップがない場合は ‘NONE’ と記入します。
- INSERT_FLANK_RIGHT*
- クローニング部位の右に隣接する塩基配列
Type: varchar(100)
Example: AAGGCGCGATGCAGTGAGCGAGGCTGACGTCGGCTAGCGTCGCGTCGGGTINSERT_FLANK_RIGHT ではクローニング部位の右に隣接するリンカーを含む塩基配列 (50-100 塩基) を記入します。この情報によりユーザは独自にベクターをトリミングすることができます。この項目はほとんど全ての STRATEGY と TRACE_TYPE_CODE で必須です。この項目は CLIP_VECTOR_RIGHT がある場合には省略できますが,INSERT_FLANK_RIGHT への記入を推奨しています。クローニングステップがない場合は ‘NONE’ と記入します。
- INSERT_SIZE*
- インサートの平均塩基配列長 (TEMPLATE_ID の値で参照されます)
Type:int
Example: 2000INSERT_SIZEは配列決定されるクローンの期待されるインサート長を示します。あるライブラリーに対して見積もられたインサートの平均長に基づいて記入します。この情報は全ゲノムアセンブリなどの実験にとって重要です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=WGS
STRATEGY=Any;
TRACE_TYPE_CODE=WCS
STRATEGY=cDNA;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
- INSERT_STDEV*
- INSERT_SIZE の標準偏差
Type: int
Example: 200INSERT_STDEVはインサート長の標準偏差です。この値は概算値です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=WGS
STRATEGY=Any;
TRACE_TYPE_CODE=WCS
STRATEGY=cDNA;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
- LATITUDE*
- サンプル採取地点の緯度 (standard GPS notation に基づく)
Type: float
Example: 54.736環境サンプルの取得地点の緯度。緯度の範囲は [-90,90] で,赤道を 0 とし,赤道より北を正の値で,南を負の値で表します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Geo;TRACE_TYPE_CODE=Any
- LIBRARY_ID*
- CLONE_ID に記載されたクローンのソースライブラリー
Type: varchar(100)
Example: RP23LIBRARY_ID にはクローンのソースライブラリーを記載します。多くのゲノムライブラリーはClone Registry (http://www.ncbi.nlm.nih.gov/clone)に既に登録されており,これらのライブラリーについてはstandard nomenclature (http://www.ncbi.nlm.nih.gov/clone/content/overview/)に従った名称を使用します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=cDNA;TRACE_TYPE_CODE=Any
STRATEGY=EST;TRACE_TYPE_CODE=Any
STRATEGY=CLONEEND;TRACE_TYPE_CODE=CLONEEND
STRATEGY=CLONE;TRACE_TYPE_CODE=Any
STRATEGY=ENCODE;TRACE_TYPE_CODE=SHOTGUN;PrimerWalk; CLONEEND
- LONGITUDE*
- サンプル採取地点の経度 (standard GPS notation に基づく)
Type: float
Example: -86.403環境サンプルデータの取得地点の経度。グリニッジ子午線を 0° として,子午線よりも東は +180°,西は -180° です。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Env Sample-Geo; TRACE_TYPE_CODE=Any
- LO_FILTER_SIZE
- 環境サンプルを分取したフィルターで一番小さいサイズ
Type: varchar(50)
Example: 25 micronLO_FILTER_SIZEは環境サンプルでのみ記載可能ですが必須ではありません。
- NCBI_PROJECT_ID
- INSDC によって管理されている BioProject ID
Type: int
Example: 7NCBI_PROJECT_IDは trace と BioProject database を結びつけ,プロジェクト単位でのデータ取得を可能にします。シークエンス拠点はゲノム配列データを登録する前に DDBJ BioProject にプロジェクトを登録することができます。プロジェクト登録の時点で配列データを登録する必要はありません。
- ORGANISM_NAME*
- BARCODE プロジェクトにおいて trace が由来する生物種名
Type: varchar(100)
Example: Acanthocybium solandriORGANISM_NAMEは BARCODE データにおいてリードを生物種ごとに分類するのに使われます。生物種名はTaxonomy Browser に従って記載します。全ての BARCODE データではSPECIES_CODE=”BARCODESPECIES” になります。STRATEGY=BARCODE の場合に必須です。
- PEAK_FILE
- peak value が記載されたファイル
Type: varchar(200)
Example: ./mytraces/123clone.peak 説明についてはBASE_FILEをご覧ください。
- PICK_GROUP_ID
- 同じ時に取得された trace をまとめる ID
Type: int
Example: 939065
- PLACE_NAME
- 生物学的サンプルが得られた地点の国名 and/or 一般に通用する名称
Type: varchar(250)
Example: OctopusSprings PLACE_NAMEは環境サンプルでのみ記載可能ですが必須ではありません。
- PLATE_ID
- 登録者が付けたプレート ID
Type: varchar(32)
Example: 203PLATE_IDとWELL_IDはシークエンステンプレートが保存された場所を指し示します(CLONE_ID に記載されたクローンの保存場所ではありません)。この情報はこぼれたり何かが混入したプレートを同定するのに役立ちます。プレートを使用しない実験の場合は ‘0’ を記入します。
- POPULATION_ID
- 登録者が trace (もしくは trace のグループ) が由来する population に付けた ID
Type: varchar(100)
Example: CEPHPOPULATION_IDは集団を特定するのに使われます。この情報は population study (通常 STRATEGY=SNP) で使用されます。
- PREP_GROUP_ID
- 同じ時に調整された trace をまとめる ID
Type:varchar(30)
Example: A2
- PRIMER
- シークエンス反応で使われたプライマー配列
Type: varchar(200)
Example:GAATACCTACGATCGCCPRIMERにはシークエンスプライマーの塩基配列を記入します。センターが多種類のプライマーを使っている場合はPRIMER_CODE に primer code のリストを記載します。
- PRIMER_CODE
- シークエンスプライマーに対するコード
Type: varchar(30)
Example: Sp6
- PRIMER_LIST*
- マッピング実験 (例 AFLP) で使われた ‘;’ で区切られたプライマーのリスト
Type: varchar(100)
Example:AAGGTCTGCGCGTGTC;AGCTGCGTACGTAATCG;この項目はSTRATEGY=”AFLP” と TRACE_TYPE_CODE=”PCR” の組み合わせのときに必須です。
- PROGRAM_ID*
- trace ファイルを作成するのに使われたプログラム
Type: varchar(100)
Example: phred-19990722hベースコールに使われたプログラムをフリーテキストで記載します。プログラムの名前,バージョン番号や日付はとても有用です。
例:- phred-19980904e
- abi-3.1
- ATQA
- TraceTuner
- Licor
- Megabase
- Beckman
- PROJECT_NAME
- 異なるセンターからの trace をまとめる共通したプロジェクト名
Type: varchar(50)
Example: NewProject シークエンス拠点は共通したプロジェクト名を用いることで,あるプロジェクトから産みだされる全ての trace をグループ化することができます。記載可能なプロジェクト名は制限されています。この項目を利用する場合は事前に DDBJ Trace Archive に連絡し,全てのプロジェクト参加者が同意しているプロジェクト名を伝えます。
- QUAL_FILE
- quality score を含んだファイル
Type: varchar(200)
Example: ./mytraces/123clone.fasta.qstrace ファイルが quality score を含んでいない場合,quality score が含まれた別のファイルを登録します。QUAL_FILE でファイルを指定します。trace (通常は scf) ファイル中の quality score は QUAL_FILE のもので上書きされます。QUAL_FILE と trace ファイルの quality score が同じ場合は QUAL_FILE を登録しないでください。BASE_FILE とQUAL_FILE の両方を登録する場合は,あわせて peak index 情報をPEAK_FILE として別ファイルで登録します。
- REFERENCE_ACCESSION*
- リシークエンスプロジェクトで使用されるリファレンス配列のアクセッション番号 (配列を特定するためにバージョン番号も併記します)。 Comparative study の場合はプライマーデザインの情報も付け加えます。
Type: varchar(50)
Example: NT_029829.1次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing;Comparative TRACE_TYPE_CODE=Any
- REFERENCE_ACC_MAX*
- リシークエンスや比較ゲノム解析における amplicon の終了位置
Type: int
Example: 30929この項目は[REFERENCE_ACCESSIOxx(#REFERENCE_ACCESSION)の accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=SHOTGUN; PCR;RT-PCR
- REFERENCE_ACC_MIN*
- リシークエンスや比較ゲノム解析における amplicon の開始位置
Type: int
Example: 29829この項目はREFERENCE_ACCESSIONの accession.versionで特定されたリファレンス配列の開始座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=SHOTGUN; PCR;RT-PCR
- REFERENCE_OFFSET*
- リシークエンス解析でスタートの位置を決める REFERENCE_ACCESSION で指定された配列におけるオフセット値
Type: int
Example: 1520899この項目はREFERENCE_ACCESSIONの accession.versionで特定されたリファレンス配列の終端の座標を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Re-sequencing; TRACE_TYPE_CODE=CHIP
- REFERENCE_SET_MAX
- リシークエンスされた領域全体の終了位置。この領域は複数の amplicon を含むことがあります
Type: int
Example: 29829この項目にはREFERENCE_ACCESSIONの accession.versionで指定されたリシークエンスされた領域全体の終了位置を記入します。スタートを (0ではなく) 1とした塩基対座標で記入します。 REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。
- REFERENCE_SET_MIN
- リシークエンスされた領域全体の開始位置。この領域は複数の amplicon を含むことがあります
Type: int
Example: 29829この項目にはREFERENCE_ACCESSIONの accession.versionで指定されたリシークエンスされた領域全体の開始位置を記入します。 スタート を (0ではなく) 1とした塩基対座標で記入します。REFERENCE_ACC_[MIN|MAX] と REFERENCE_SET_[MIN|MAX]のセットは同じ REFERENCE_ACC を参照する必要があります。
- RUN_DATE
- シークエンス反応が行われた日付
Type: datetime
Example: 2000-10-28
- RUN_GROUP_ID
- 同じシークエンサーでランされた trace につける ID
Type: varchar(30)
Example: group2
- RUN_MACHINE_ID
- trace が得られたシークエンサーの ID
Type: varchar(30)
Example: machine2
- RUN_MACHINE_TYPE
- trace が得られたシークエンサーのモデル名
Type: varchar(30)
Example: ABI 310
- SEQ_LIB_ID*
- シークエンスに使用された M13/PUC ライブラリー
Type: varchar(255)
Example: 22194シークエンスに用いられた M13/PUC ベースのクローンに対してセンターが独自に付けた ID を記入します。この ID で trace を ligation event でまとめることができるようになります。
次の STRATEGY と TRACE_TYPE_CODE の組み合わせで必須です:
STRATEGY=Any;TRACE_TYPE_CODE=SHOTGUN
STRATEGY=Any;TRACE_TYPE_CODE=WGS/WCS
- SOURCE_TYPE*
- DNA のソース
Type: varchar(50)
Example: GENOMIC DNASOURCE_TYPEに記載可能なコードとその説明は以下です:
- G=Genomic DNA (ゲノム DNA からの PCR 産物を含む)
- N=Non Genomic DNA (EST, cDNA, RT-PCR, screenedlibraries)
- VIRAL RNA=Viral RNA
- SYNTHETIC=Synthetic DNA
記載可能なコードは G,N,GENOMIC,NON GENOMIC,VIRAL RNA,SYNTHETIC です。
- SPECIES_CODE*
- trace が得られた生物種
Type: varchar(100)
Example: Homo sapiensSPECIES_CODEは分類学上の生物種名でリードを分類するのに使われます。この項目はコントロールされています。
Trace Archive に含まれている生物種名のリスト:http://www.ncbi.nlm.nih.gov/Traces/trace.cgi?cmd=stat&f=xml_list_species&m=obtain&s=speciesリストに含まれていない生物を登録する場合は,データを投稿する前に DDBJ Trace Archive に連絡します。trace が由来する生物を分類できない場合は,環境サンプルには ‘ENVIRONMENTAL SEQUENCE’ を人工物には ‘ARTIFICIAL SEQUENCE’ を使用することができます。
- STRATEGY*
- 実験的な strategy
Type: varchar(50)
Example: MODEL VERIFYtrace を得る上で採用された実験上の STRATEGY。値はコントロールされていますが,登録者はリストへの新しい用語の追加を申請することができます。
記載可能な用語 (このリストは拡張され続けています):
- AFLP: Amplified Fragment Length Polymorphism
- BARCODE: DNA sequence analysis of a uniform target gene toenable species identification
- CCS: Concatenated cDNA sequencing
- cDNA: Sequences generated in the process of sequencing cDNAclones
- CF-S: Cot-filtered single/low-copy genomic DNA
- CF-M: Cot-filtered moderately repetitive genomic DNA
- CF-H: Cot-filtered highly repetitive genomic DNA
- CF-T: Cot-filtered theoretical single-copy DNA
- CLONE: Genomic clone based (hierarchical) sequencing
- CLONEEND: Sequences generated from the end of a clone(BAC/PAC/Fosmid or cDNA)
- Comparative: Sequences obtained using primers design fromrelated species
- CTS: Concatenated Tag Sequencing
- Env Sample-GEO: Geographically generated environmentalsample
- Env Sample-Host: Environmental samples collected from aspecific host
- EST: single pass sequencing of cDNA templates
- FINISHING: a read specifically made for finishing, could beeither BAC finishing or Whole Genome Assembly (WGA) finishing
- MODEL VERIFY: Sequences obtained to verify proposed genemodels
- PoolClone: Pools of clones (BACs mostly)
- SNP: Reads used for SNP identification
- TARGETED LOCUS: Sequences obtained from templates generated byprimers designed to amplify a specific genetic locus
- Re-sequencing: Re-sequencing of targeted genomic regions
- RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
- WGA: Whole Genome Assembly
- SUBMISSION_TYPE*
- submission の種類
Type: varchar(50)
Example: NEW記載可能な値:
- NEW: 新しいデータを登録するとき
- UPDATE:trace とメタデータを更新するとき。以前のデータは TI とともに保存され,更新された trace には新しい TI が付与され active になります。
- UPDATEINFO:登録済みの trace を変えることなくメタデータのみを更新するとき
- WITHDRAW:trace を withdraw するとき
- SVECTOR_ACCESSION
- シークエンスベクターの DDBJ/EMBL/GenBank アクセッション番号
Type: varchar(50)
Example: X52325
- SVECTOR_CODE
- センターが独自にシークエンスベクターに付けたコード
Type: varchar(50)
Example: pBluescript SK(+)
- TEMPERATURE
- 環境サンプルが採取された地点の温度 (oC)
Type: float
Example: 30TEMPERATUREは環境サンプルでのみ記載可能ですが必須ではありません。
- TEMPLATE_ID
- 登録者がシークエンスしたテンプレートに付けた ID
Type: varchar(50)
Example: HBBBA2211TEMPLATE_IDは実際にシークエンスされたテンプレートを同定するのに使われます。この情報と TRACE_END を組み合わせ,ある2つの trace が同じクローンの両側から得られた ‘mate_pairs’ かどうか判断しています。
- TRACE_END
- リードに含まれるテンプレートの向き
Type: varchar(50)
Example: FTRACE_END は以下の値を持てます:
- F: FORWARD
- R: REVERSE
- N: UNKNOWN
- TRACE_FILE*
- ルートからの trace ファイルまでの絶対パス
Type: varchar(200)
Example: ./traces/TRACE001.scf
- TRACE_FORMAT*
- trace のファイル形式
Type: varchar(20)
Example: scfTRACE_FORMATは以下の値を持てます:
- SCF - DNA シークエンス装置から出力される標準的なフォーマット
- ABI - ABI-tracefile は trace データと塩基配列を含むバイナリーファイルです
- TRACE_NAME*
- 登録者が trace に付ける名前
Type: varchar(250)
Example: HBBBA1U2211TRACE_NAMEはセンター単位でユニークであればよく,センター間でユニークである必要はありません。Trace Archive では TRACE_NAME と CENTER_NAME の組み合わせがユニークなキーとして働きます。
- TRACE_TYPE_CODE*
- trace が取得されたシークエンス strategy
Type: varchar(50)
Example: wgsTRACE_TYPE_CODE には trace を得るのに使われたシークエンス strategy を記入します。
取り得る値:
- CHIP: Sequences obtained using microarrays (also called DNAchips or gene chips)
- CLONEEND: Sequences generated from the end of a large insert(BAC/PAC/Fosmid) or cDNA clone
- EST: Single Pass Expressed Sequence Tag
- HTP SELEX: High throughput SELEX
- OTHER: Other than PCR, PrimerWalk, SHOTGUN or TRANSPOSON forFINISHING STRATEGY
- PCR: Sequences obtained using templates generated by genomicPolymerase Chain Reaction
- PrimerWalk: Sequences generated through a primer walkingstep
- RT-PCR: Sequences obtained using templates generated by ReverseTranscriptase Polymerase Chain Reaction
- SHOTGUN: Shotgun sequencing of clones (genomic or cDNA)
- TRANSPOSON: Sequences obtained using templates generated bytransposons
- WCS: Whole Chromosome Shotgun
- WGS: Whole Genome Shotgun
- TRANSPOSON_ACC*
- シークエンステンプレートを生成するのに使われたトランスポゾンの DDBJ/EMBL/GenBank アクセッション番号
Type: varchar(50)
Example: X00913次の STRATEGY と TRACE_TYPE_CODE の組み合わせの時に必須です: STRATEGY=Any;TRACE_TYPE_CODE=TRANSPOSON
- TRANSPOSON_CODE*
- シークエンステンプレートを生成するのに使われたトランスポゾンにセンターが付けたコード
Type: varchar(50)
Example: Mu transposon次の STRATEGY と TRACE_TYPE_CODE の組み合わせの時に必須です: STRATEGY=Any;TRACE_TYPE_CODE=TRANSPOSON
- WELL_ID
- シークエンス反応が行われたウェルにセンターが付けた ID
Type: varchar(50)
Example: A1WELL_ID は PLATE_ID と一緒にシークエンス反応が行われた場所を特定するのに利用されます (WELL_ID も参照)。通常シークエンス反応は標準的な 96 もしくは 384 穴プレートで行われます (下の標準的なウェルの配置図を参照)。
標準的な 96 穴プレートの配置
標準的な 384 穴プレートの配置
Internal Fields List
- BASECALL_LENGTH
- trace の塩基長
Type: int
Example: 396
- BASES_20
- quality score が 20 を超える塩基数
Type: smallint
Example: 50注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。
- BASES_40
- quality score が 40 を超える塩基数
Type: smallint
Example: 50注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。
- BASES_60
- quality score が 60 を超える塩基数
Type: smallint
Example: 50注意:quality score がない登録がいくつか存在します。これは ABI ファイルだけが登録され, quality call が別ファイルで登録されなかったためです。
- LOAD_DATE
- データがロードされた日付
Type: smalldatetime
Example: Jan 8 2001 11:59AM
- MATE_PAIR
- 同じテンプレートの逆方向から得られたリードの TI 番号
Type: int
Example: 203682255 MATE PAIRは同じテンプレートの両方向 (FORWARD と REVERSE) から得られたリード。
- REPLACED_BY
- “active” な TI を置き換えた TI
Type: int
Example: 304753779この項目は最新のデータセットを指し示します。trace が更新された場合REPLACED_BY は新しいTIが入力されます。メタデータのみが更新された場合は replaced_by=0 で表示されません。
- STATE
- trace の status
Type: varchar
Example: active取り得る値:
- active
- updated
- withdrawn
- TAXID
- NCBI Taxonomy ID
Type: int
Example: 10090DDBJ Trace Archive と NCBI Taxonomy Browser とを結びつけます。
- TI
- trace 固有のアクセッション番号
Type: int
Example: 304753779trace がデータベースにロードされた時点で TI が付与されます。どのようなレコードでも TI で取得できます。
- UPDATE_DATE
- データが update/replace された日時
Type: smalldatetime
Example: Jul 19 2001 3:48PM最後に更新された日時が記録されます。
trace データの登録
ヒトを対象とした研究データの登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (被験者)
の情報・プライバシーは,適用されるべき法律,規定,登録者が所属している機関の方針に従い,登録者の責任において保護されている必要があります。
原則として,被験者を直接特定し得る参照情報は,登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。
TI 番号
DDBJ Trace Archive (DTA) への登録にはメタデータと trace ファイルが必要です。 ユニークなアクセッション番号 (TI 番号) は trace データが NCBI Trace Archive に登録されるときに割り振られます。 TI 番号が発行されたデータは即日公開されます。
TI 番号発行後,データは即日公開されます。
登録に必要なファイル
テキストファイル (TRACEINFO ファイル) に trace データに関するメタデータを記述し,trace ファイルの場所を指定します。 トップディレクトリを作成し,全てのメタデータファイルをトップディレクトリ下に配置します。 また trace ファイルは,トップディレクトリ下に1つ以上のディレクトリを作成し,その内に配置します。 trace ファイル (SCF,ABI フォーマットのどちらの場合 も) はトップレベルではなく,サブディレクトリのなかに配置されている必要があります。 サブディレクトリ名 は trace やプロジェクトの名前を使うことを推奨します。 さらにサブディレクトリを作成し trace をグループに分けることができます。
以下は登録ディレクトリの構成例です。
登録ディレクトリの構成例
TOP_DIRECTORY/
TOP_DIRECTORY/TRACEINFO
TOP_DIRECTORY/traces
TOP_DIRECTORY/traces/FLJ/
TOP_DIRECTORY/traces/FLJ/FLJA1U0001.scf
TOP_DIRECTORY/traces/FLJ/FLJA1U0002.scf
TOP_DIRECTORY/traces/FLJ/FLJA1U0003.scf
メタデータファイルは XML かタブ区切りテキストファイル形式にします。 STRATEGY と TRACE_TYPE_CODE の組み合わせで必須になるメタデータ項目一覧は Validation Table をご覧ください。どちらの形式のメタデータでも最初に共通項目のセクションを含めることができます。 このセクションには各 trace に共通する項目を記載します。
以下は TRACEINFO メタデータファイルの例です。
TRACEINFO xml ファイルの例
<?xml version="1.0"?>
<trace_volume>
<common_fields>
<center_name>CENTER NAME ACRONYM IS HERE</center_name>
<center_project>FLJ</center_project>
<source_type>N</source_type>
<species_code>HOMO SAPIENS</species_code>
<strategy>EST</strategy>
<submission_type>NEW</submission_type>
<trace_format>SCF</trace_format>
<trace_type_code>EST</trace_type_code>
</common_fields>
<trace>
<trace_name>F-3NB691000020</trace_name>
<trace_file>./traces/F-3NB691000020.scf</trace_file>
<clone_id>3NB691000020</clone_id>
<library_id>3NB691</library_id>
<template_id>3NB691000020</template_id>
</trace>
<trace>
<trace_name>F-3NB691000033</trace_name>
<trace_file>./traces/F-3NB691000033.scf</trace_file>
<clone_id>3NB691000033</clone_id>
<library_id>3NB691</library_id>
<template_id>3NB691000033</template_id>
</trace>
--- more information ---
</trace_volume>
TRACEINFO タブ区切りテキストファイルの例
center_name = CENTER NAME ACRONYM IS HERE
center_project = FLJ
source_type = N
species_code = HOMO SAPIENS
strategy = EST
submission_type = NEW
trace_format = SCF
trace_type_code = EST
trace_name clone_id library_id template_id trace_file
F-3NB691000020 3NB691000020 3NB691 3NB691000020 ./traces/F-3NB691000020.scf
F-3NB691000033 3NB691000033 3NB691 3NB691000033 ./traces/F-3NB691000033.scf
--- more information ---
アカウントの取得
DDBJ 登録用アカウントを取得します。
登録用ファイルのアップロード
DTA チームに連絡し,登録用ディレクトリの作成を依頼します。 マニュアルに従いファイルを SCP で転送します。
登録ディレクトリの例
submission/submitter_id/dta/dta_submitter_id-0001
DTA の登録用ディレクトリは DDBJ Sequence Read Archive とは別になります。
登録の完了
登録の完了後,登録者が公開を指示するまで DTA はデータを非公開にします。 データ公開の指示があれば DTA は NCBI Trace Archive にデータをアップロードします。データが NCBI Trace Archive にロードされると TI 番号が発行されデータは公開されます。
TI 番号の発行とデータ公開は同時になります。
データの更新
データを更新するときは DTA チームまでご連絡ください。