DDBJ Annotated/Assembled Sequences
MSS - Mass Submission System
ヒトを対象とした研究データの登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (研究対象者) の尊厳及び人権は、 適用されるべき法律、規定、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。 原則として、研究対象者を直接特定し得る参照情報は、登録データから取り除いてください。 ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。
概要
Mass Submission System (MSS) は、比較的大規模な塩基配列データ (reads ではない) をファイル送付により登録するサービスです。 以下の何れかに該当する場合、Web 版塩基配列登録システム (DDBJ Nucleotide Sequence Submission System, 略称 NSSS) では対応できません。 MSS 経由で登録をお願いします。 件数の多寡、長さ以外の点もご確認ください。
a) 種別、または、量が以下に該当する配列データ
b) finished/draft の別を問わずレプリコン全長規模相当の配列データ
- (核) ゲノム
- 染色体
- オルガネラゲノム
- ウイルス・ファージのゲノム/segment
- プラスミド
c) DBLINK に BioProject, BioSample の記載が必要な配列データ
BioProject/BioSample との連携のために DBLINK への記載を必要とする場合、 以下を含みますが、下記で全てを網羅している訳ではありません。
- メタゲノム的解析、環境プロファイル解析全般
- 標的遺伝子を限定した配列データを相互に関連付ける場合
- 登録予定、または、登録済みの全長規模ゲノム配列と同一菌株 (strain) に由来する配列データ
- 原核生物 16S rRNA 配列の報告義務がある場合
- 他の標的遺伝子・クラスター領域を先行発表する場合
- 上記に該当しない場合、Web 版塩基配列登録システム (NSSS: DDBJ Nucleotide Sequence Submission System) のご利用をお勧めしております。
- シークエンサからの出力配列 (reads) を登録する場合は DRA: DDBJ Sequence Read Archive をご参照ください。
MSS 登録の流れ
登録ファイルの作成
登録に必要なファイル
- 配列ファイル
- 全登録データの配列を FASTA 形式で記述したテキストファイル。 参照 登録ファイル形式:配列ファイル
- アノテーションファイル
- 全登録データの登録者、REFERENCE、Feature/Qualifier の情報等を記述したタブ区切りテキストファイル。 参照 登録ファイル形式:アノテーションファイル
- 原核生物ゲノムの登録では、DFAST(DDBJ Fast Annotation and Submission Tool) を利用し、アノテーションファイルを作成することができます。
- AGP ファイル (CON エントリ登録時のみ必要)
- [重要] CON データの新規登録は受け付けを終了しました。
- CON エントリを構築する際のピースエントリの順序、種類、方向等が記載された、9列からなるタブ区切りテキストファイル。 AGP ファイルのみで配列が構築可能である場合は、配列ファイル送付は必要ありません。 参照 登録ファイル形式: AGP ファイル
BioProject & BioSample ID の取得
- 登録種別に応じ、登録ファイル作成時には事前に BioProject ID、BioSample ID (含 locus_tag prefix 予約)の取得)が必要です。
- 原則として取得した locus_tag prefix は変更できませんので、取得の際にはご注意ください。
- 対応表を参照してください。
サンプル、アノテーションファイルの説明
- サンプルアノテーション
- アノテーションファイルに関する説明
- 原核生物ゲノムのアノテーションファイル作成には、DFAST (DDBJ Fast Annotation and Submission Tool) の利用を推奨しています。
- DFAST を利用した登録ファイルの作成をお読みいただき、登録ファイルを取得してください。
- 全長規模のゲノム配列では source と assembly_gap 以外の biological feature の記載は任意ですが、過去に登録例がない新規性の高い種が対象の場合、最低でも1つのゲノムに代表としてアノテーションの記載が必要です。
- 全長規模のゲノム配列でアノテーションを記載する場合は、BioSample の登録時に locus_tag prefix の取得が必要です。
- TSA では source と assembly_gap 以外の biological feature の記載は任意であり、基本的には不要です。
- EST には、source 以外の biological feature を記載できません。
- アノテーションが必要なデータ種別については、対応表を参照してください。
ファイルチェックツール
DDBJ に登録ファイルを送る前に、必ず作成したファイルを DDBJ が提供するデータファイル用チェックツールを用いてチェックを実行してください。
- UME (Utilities for MSS file Error check) 配列ファイルとアノテーションファイルのフォーマットチェックと、それらファイルの記載を元に CDS feature のアミノ酸翻訳チェックを行います。Parser と transChecker を内包しています。 OS: Windows, Linux/macOS 説明:UME ユーザーマニュアル
- Parser [配列ファイル]/ddbj/file-format.html#sequence)とアノテーションファイルのフォーマットチェックを行います。 OS: Linux 説明:Parser ユーザーマニュアル
- transChecker 配列ファイルとアノテーションファイルの記載を元に CDS feature のアミノ酸翻訳チェックを行います。 OS: Linux 説明:transChecker ユーザーマニュアル
ダウンロード: MSS データファイル用チェックツール
- データファイル用チェックツールには登録用ファイルを作成する機能はありません。ご使用の PC で利用されているテキストエディタ、表計算ソフトなどでファイルの作成をして下さい。
- 未定義文字の使用やコントロールコードの混入等によるシンタックスエラーは、登録処理作業時に大きな障害となり、アクセッション番号の発行が大幅に遅れる原因となります。
- Biological feature として CDS feature を含むデータは、UME または transChecker を用いて、必ずアミノ酸翻訳チェックを実行してください。
- ツールのご利用前に使用許諾をご確認ください。
アカウント作成
- D-way 登録アカウントをお持ちでない場合、D-way の “Register for a new account “ より作成して下さい(ヘルプ)。
- SCP/SFTP 転送を利用いただくには、アカウントへの公開鍵の登録が必要です。ファイル転送手順につきましては、「データのアップロード」をご参照ください。
登録申し込み
MSS 申し込みフォームから行って下さい。単一の申し込みは、以下の条件を全て満たすエントリセットの場合のみとなっております。一つでも条件が異なるエントリを登録する場合には、複数回の申し込みが必要となります。 事前に登録ファイルを用意されていますと、申し込みフォーム入力時にファイルをアップロードできます。入力時にファイルをアップロードできない場合には、返信メールにアップロードに関連する内容が提示致されますので、後日アップロードしてください。
申し込みが完了しますと、当該登録に対して Mass-ID が発行されます。DDBJ から送信されますメールのヘッダーには Mass-ID([DDBJ:NSUB000001]) が表示されますので、返信される際には、メールヘッダの Mass-ID を維持して下さい。
- 同じSubmissionでの申し込み可能な例
- バクテリア20菌株のドラフトゲノム → WGS: Whole Genome Shotgun
- Finished level genome sequence 3個体の真核生物ゲノム → GNM: Finished Level Genome sequence, non-WGS
- 生物種ごとにアセンブルした転写物配列、複数生物種由来の複数セット → TSA: Transcriptome Shotgun Assembly
複数回に分けての申し込みが必要な例
- a. 単一のバクテリア菌株のchromosomeのドラフトゲノムとプラスミド全長配列(1個または複数個)
- 2回に分けて申し込んでください
- ドラフトゲノム → WGS: Whole Genome Shotgun
- プラスミド全長配列 → MISC: Sequences that are not included in above types
- b. 単一真核生物個体の chromosome ドラフトゲノムとオルガネラゲノムの全長
- 2回に分けて申し込んでください
- Chromosomeのドラフトゲノム → WGS: Whole Genome Shotgun
- オルガネラゲノムの全長 → MISC: Sequences that are not included in above types
- c. 単一真核生物個体の chromosome ドラフトゲノムとアセンブルした大規模転写物配列
- 2回に分けて申し込んでください
- Chromosomeのドラフトゲノム → WGS: Whole Genome Shotgun
- アセンブルした大規模転写物配列 → TSA: Transcriptome Shotgun Assembly
登録ファイル送付方法
登録ファイルは MSS form から以下のいずれかの方法で送信することができます。
- ブラウザ上でアップロード
- DFAST の job ID を指定する
- DFAST にて、登録ファイルを作成済みの場合
- SFTP サーバーに転送済みの登録ファイルを送付
- 目安としてファイルサイズが合計で 10 Gbyte を超える場合は、公開鍵と秘密鍵を用いた SCP/SFTP によるファイル転送を選択してください。アカウントに認証用公開鍵を登録後、「データのアップロード」に従い転送してください。
- 以下の説明をお読みください。
<お願い> 特に理由のない限り、電子メール添付による登録ファイル送付はおやめください。
SFTP サーバーに設置する登録ファイルの形式
- 対象ディレクトリは /mass です。
- MSS Application Form を使用した場合の読み取り先になりますので、Submissionファイルのみを設置してください。
- MSS Application Form は、massディレクトリ配下のサブディレクトリからもファイルを読み込みます。
- Submissionファイル名には次の制約があります。圧縮した場合は、圧縮アーカイブに含まれる各ファイル名が制約を受けます。
- アノテーションファイルの拡張子が .ann、.annt、.tsv、.ann.txt のいずれかであること。
- 塩基配列ファイルの拡張子が .fasta、.seq.fa、.fa、.fna、.seq のいずれかであること。
- 各submissionでアノテーションファイルと塩基配列ファイルがペアになっていること。拡張子を除いたファイル名称が同一なファイルがペアになります。
- Submissionファイルの再提出をDDBJ curatorにより要請された場合を除きます。
- ファイル名は、スペース、バッククォート、アングルブラッケッツ”<>”、丸括弧”()”以外の半角英数記号とし、日本語のようなマルチバイト文字を使用しないこと
- MSS Application Form は圧縮ファイルからの読み込みに対応しています。対応する圧縮形式は、次の通りです。
- gzip, bzip2, xz, lzip, lzma, lzop, zstd, compress e.g. 20230322-1.tar.gz 20230322-2.tar.bz2 20230322-3.tar.xz 20230322-4.zip 20230322-5.tar.lzma 20230322-6.tar.lzo 20230322-7.tar.zst 20230322-8.tar.Z
査定作業
チェックツールによる検証を行った後、配列ファイルとアノテーションファイルを DDBJ にアップロードしてください。
送付された全データを DDBJ で査定し、修正依頼や疑問等があれば通知します。ファイルの内容に問題がなければ、データ登録作業を行い、Contact person のメールアドレス、または登録担当者宛に、アクセッション番号通知メールを送信します。
全ファイルを送付する前に、登録予定データの一部(数 entry 分)をテストデータとして登録ファイルを送付し、DDBJ に確認を依頼することが可能です(このステップは省略可能です)。
データ公開
登録時に即日公開を希望した場合は、可能な限り速やかに公開します。 公開予定日 (hold_date)を指定した場合は、公開原則に基づいて公開します。 登録された塩基配列データは、DDBJ の定める方法で塩基配列ファイルとアノテーションファイルの内容に基づき変換を行い、フラットファイル (flat file)形式として公開されます。 アノテーションファイルとフラットファイルの対応関係をご参照ください。
BioProject/BioSample ID の要否
- Genome
Your submission | BioProject | BioSample | Annotation with biological feature |
locus_tag | Need DRA | You should select |
---|---|---|---|---|---|---|
Draft genome w/ annotation | M | M | M | M | OPT | WGS |
Draft genome w/o annotation | M | M | NR | NR | OPT | WGS |
Finished level genome sequence, non-WGS | M | M | M | M | OPT | GNM |
Metagenome-Assembled Genome w/ annotation | M | M | M | M | M | MAG |
Metagenome-Assembled Genome w/o annotation | M | M | NR | NR | M | MAG |
Single Amplified Genome w/ annotation | M | M | M | M | OPT | SAG |
Single Amplified Genome w/o annotation | M | M | NR | NR | OPT | SAG |
High Throughput Genomic Sequences | M | M | OPT | NR | OPT | HTG |
Transcriptome Shotgun Assembly | M | M | OPT | NR | M | TSA |
High Throughput cDNA Sequences | M | M | OPT | NR | OPT | HTC |
Expressed Sequence Tags | M | M | NR | NR | OPT | EST |
Virus/Phage genome | NR | NR | OPT | NR | OPT | MISC |
Plasmid genome only | NR | NR | OPT | NR | OPT | MISC |
Organelle genome only | NR | NR | OPT | NR | OPT | MISC |
Finished Level Genome + Plasmid | M | M | M | M | OPT | GNM, MISC for each submission |
Finished Level Genome + Organelle | M | M | M | M | OPT | GNM, MISC for each submission |
M, Mandatory; NR, Not required; OPT, Optional
- Transcriptome
Your submission | BioProject | BioSample | Annotation with biological feature |
locus_tag | Need DRA | You should select |
---|---|---|---|---|---|---|
Transcriptome Shotgun Assembly | M | M | OPT | NR | M | TSA |
High Throughput cDNA Sequences | M | M | OPT | NR | OPT | HTC |
Expressed Sequence Tags | M | M | NR | NR | OPT | EST |
M, Mandatory; NR, Not required; OPT, Optional
- Targeted Locus Study
Your submission | BioProject | BioSample | Annotation with biological feature |
locus_tag | Need DRA | You should select |
---|---|---|---|---|---|---|
Targeted Locus Study | M | M | M | NR | OPT | TLS |
M, Mandatory; NR, Not required; OPT, Optional
DFAST: 原核生物ゲノムの登録
DFAST(DDBJ Fast Annotation and Submission Tool)
DFAST は、原核生物ゲノムの高速自動アノテーションパイプラインで、DDBJ に直接登録可能なアノテーションファイルを取得できます。Annotated/Assembled Sequences database へ原核生物ゲノムを登録する際には、DFAST の利用を強く推奨しています。
原核生物ゲノムの登録の手順
- DFAST で解析した原核生物ゲノムを Annotated/Assembled Sequences database に登録するには、事前にBioProject、BioSample、locus_tag preifx(Biogical featureを記載する場合)の登録が必要です。
- D-way アカウントで DFAST にログインすると 、解析(job)の履歴管理ができます。アカウントを持っていない場合にはアカウントの作成方法をご一読下さい。
DFAST のデータを Submit するには
- DFAST にアクセスし、D-way アカウントでログインします。ジョブ投入画面において塩基配列ファイルをアップロードすると、解析が始まり job ID が発行されます。job 終了後、”DDBJ submission” タブをクリックします。DDBJ への登録に必要な項目(BioProject ID、BioSample ID、locus_tag prefix、その他のメタ情報)を入力すると、MSS 登録ファイルが作成されます。(注1) 最後に、Format Check をクリックして、書式チェックを行ってください。
- DFAST の job ID で submit する場合
- job ID (########-####-####-####-############ 書式のID)をコピーします。
- DFAST からダウンロードしたファイルを submit する場合
- 実行したjobの履歴管理画面にて登録を希望する job ID をチェックして選択状態にします。
- ファイル形式に”MSS”を選択し”DOWNLOAD”ボタンをクリックしてファイルをダウンロードしてください。このとき入力されたメタ情報のチェックを行います。警告が出た場合には入力した情報を確認してください(注2)。ファイルダウンロード後にテキストエディタ等で開いて修正をすることも可能です。
- MSS 申し込みを行ってください。MSS による登録の流れの手順にしたがい、登録ファイルを DDBJ に送付してください。
注1)ログインしていない状態でも DFAST を使ってゲノムアノテーションをすることは可能です。その場合には、履歴管理画面で job ID を指定して実行済みのjobを履歴に取り込むことができます。
注2)メタ情報のチェックは簡易的なものですのでキュレーターによる査定時に修正が必要になることもあります。