登録データ種別
DDBJ に登録可能なデータ
DDBJ では, Primary entry のデータとして登録依頼のあったデータにつきましては、 2次的な引用やコンピューターで予測したものでなく、登録者が実験的に決定した、もしくは、 企業等からその配列の使用権を得たものであれば、原則、受け付けています。
配列が全く同じでも, 独立に配列が決定されたデータならば、”新規データ”として別々にDDBJ に登録可能です。
また、DDBJ/ENA/GenBank では, 既に報告されている primary data を2次的に引用し、生物学的付加情報を付与し直す目的で TPA(third party data) を受け付けています。
その上で一定の基準を満たしていれば、すべて登録し、アクセッション番号を発行しています。
もし基準を満たしていない場合、訂正をお願いして再度送付していただいています。
ただし、DDBJ では、登録を受け付けることができない配列も存在します。
SNPs, WGS, transcriptome 解析などにおいて raw output data を公表することが必要な場合は、 DDBJ/ENA/GenBank とは別枠のデータベースである DTA; DDBJ Trace Archive、または、DRA; DDBJ Sequence Read Archive へのご登録をお願いいたします。
配列が同一, あるいは, 部分的に重複するデータの登録
DDBJ では, 配列が同一であっても独立に配列決定されたデータならば、基本的には、配列データの個別登録を受け付けております。 多型関連研究において同一配列が多数得られた場合は代表データを登録する形式でも受け付けています。
由来する個体などを含めて同一な場合、配列データを繰り返し新規登録するよりも既登録分を更新することを強く推奨しますが、 配列に関する権利、配列決定の進捗などを考える上で、複数回の登録が必要なケースもありますので、特に禁じてはおりません。
配列データ
アノテーションを付与した/アセンブルした塩基配列
- DDBJ Annotated/Assembled Sequences
- 狭義の DDBJ。GenBank, ENA (EMBL-Bank) に相当し、feature annotation を記載した配列データをフラットファイルとして提供。
- DDBJ の配列データの詳細な分類は「Annotated/Assembled データの区分」をご覧ください。
登録予定の塩基配列データをどのように登録すべきか不明な場合は以下をご参照ください。
- Genome Project の各段階と登録データの種別
- Transcriptome Project の各段階と登録データの種別
- Division の詳細
- Annotated/Assembled データの区分
Mass Submission System (MSS) の場合、登録時に DATATYPE, DIVISION, KEYWORD の記載に基づいて、データ種別を区別しています。
次世代シークエンスデータ
- DRA: DDBJ Sequence Read Archive
- 次世代シークエンサからの出力データとアライメントデータのためのデータベース。従来 Trace Archive で受付けていたサンガー式シークエンスの配列,Quality,クロマトグラムデータも DRA で受け付けています。
機能ゲノミクスデータ
- Genomic Expression Archive (GEA)
- 遺伝子発現、エピジェネティクスやジェノタイピング SNP アレイ等の機能ゲノミクスデータの登録先。
プロジェクト
- BioProject
- 研究プロジェクトとプロジェクトに由来するデータをまとめるためのデータベース。 ウイルス、プラスミド、オルガネラのみの場合を除く全ゲノム規模配列, WGS, TLS, TSA の登録の際は、登録が義務付けられています。
サンプル
- BioSample
- 実験データを得るために使用された生物学的な試料 (サンプル) についての情報を集中して管理するデータベース。
アクセス制限が必要なヒトデータの登録
- JGA: Japanese Genotype-phenotype Archive
- 個人に由来するアクセス制限が必要な遺伝学的なデータと表現型情報の登録。
Annotated/Assembled データの区分
Division conventional sequence data
通常の登録: 由来生物種による区分
完成したゲノム配列を含めて一般的な登録データは、ここに属します。 source feature と、それ以外に最低 1 つ Biological feature の記載が必要となります。 由来する生物の系統分類に基づいて自動的に下記の DIVISION に振り分けられます。
Division | Description |
---|---|
HUM | ヒト |
PRI | 霊長類(ヒトを除く) |
ROD | 齧歯類 |
MAM | 哺乳類(ヒト、霊長類、齧歯類を除く) |
VRT | 脊椎動物(ヒト、霊長類、齧歯類、哺乳類を除く) |
INV | 無脊椎動物 |
PLN | 植物・真菌類など |
BCT | バクテリア |
VRL | ウィルス |
PHG | ファージ |
ENV/SYN: 由来生物種を特定できない場合、環境サンプルと合成配列
環境サンプル、および、人為的な操作により構築された配列は、それぞれ、ENV、SYN と DIVISION を記載し区別します。 source feature と、それ以外に最低 1 つの Biological feature による特徴づけが必要となります。
Division | Description |
---|---|
ENV | PCR, DGGE, あるいは、その他の方法で直接、分子を単離した環境上のサンプルに由来した配列。 ENV の場合は source feature に environmental_sample qualifier を記載する必要があります。 |
SYN | 人為的な操作により構築された合成配列 SYN は合成配列、例えば発現ベクターの配列、プライマーの配列、キメラ配列、fusion配列、人為的に変異を導入した配列などが該当します。複数の生物種や遺伝子由来の断片をつなぎ合わせた合成配列では、各々の配列の由来を示すために複数のsource feature を使用して記載する場合があります。 配列データ記載例: E05) synthetic construct もご参照ください。 |
EST/GSS/HTC/HTG: 配列決定の確度、あるいは、目的による区別
EST に代表される大量解析、長大なゲノム配列の決定の途上、などの配列を以下に示す DIVISION に区別します。
生物学的な特徴づけは source feature のみを基本とします。
ただし、HTC、HTG には研究段階に応じて記載する情報が異なりますが、通常の登録と同様に
Biological features を記載することも可能です。
それぞれのデータに関する説明ページも合わせてご覧ください。
Division | Description |
---|---|
EST | expressed sequence tags; short single pass の cDNA 配列。 |
GSS | genome survey sequences; short single pass のゲノム配列。 |
HTC | high throughput cDNA sequences; EST 以外の大規模 cDNA 配列プロジェクトにする配列。 full length cDNA 解析途上の配列なども含めます。 |
HTG | high throughput genomic sequences; ゲノムプロジェクトに由来し、頻繁に update されることが期待される配列。 Genome Projectの各段階と登録データの種別もご参照ください。 HTG の unfinished 配列は段階に応じて以下の 3 phase に分類されます。
|
Data type bulk sequence data
WGS: Whole Genome Shotgun ゲノムの概要配列
ホールゲノムショットガン配列決定法を用いて全ゲノム配列を決定するゲノムプロジェクトに由来する整理が不十分な段階の大量のDNA 断片の bulk sequence data を WGS (Whole Genome Shotgun)として受け付けています。 WGS データは他のデータとアクセッション番号の書式が異なります。 Genome Project の各段階と登録データの種別 もご参照ください。
TSA: Transcriptome Shotgun Assembly
2008 年からアセンブルされた RNA transcript の bulk sequence data を Transcriptome Shotgun Assembly (TSA) として受け付けています。 生物学的な特徴づけは source feature のみを基本とします。 ただし、通常の登録と同様に Biological featuresを記載することも可能です。 TSA データは他のデータとアクセッション番号の書式が異なることがあります。 Transcriptome Project の各段階と登録データの種別もご参照ください。
TLS: Targeted Locus Study
2016 年から 16S rRNA または、他の特定 locus を標的とした配列で構成され、主として operational taxonomic unit クラスター化に用いられる bulk sequence data を Targeted Locus Study (TLS) として受け付けています。 通常の登録と同様に Biological featuresを記載することも可能です。 TLS データは他のデータとアクセッション番号の書式が異なります。
配列決定
TPA: 第三者再構築、または、アノテーション
TPA (Third Party Data) は, DDBJ/ENA/GenBank、もしくは、
Sequence Read Archive に既に登録されているエントリ (これを
プライマリーエントリと呼びます) を元に、第三者がアセンブル (assemble)、もしくは、
(再)アノテーションを行ったデータのコレクションです。
配列のアセンブルには、既存のプライマリーエントリの組み合わせのみで構成された場合と、
新規に TPA の登録者が実験的に決定した配列を混在させた場合とが存在します。
DDBJ/ENA/GenBank では, 既報のプライマリーエントリに記載されている配列に関する研究を
公開するための手段として TPA 登録を受け入れています。
TPA Submission Guidelines もご参照ください。