DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 登録の見本
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • CON
    • GSS
    • HTG
    • Environmental sequence の登録
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • MSS - Mass Submission System

MSS - Mass Submission System

ヒトを対象とした研究データの登録について

ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (研究対象者) の尊厳及び人権は、適用されるべき法律、規定、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。
原則として、研究対象者を直接特定し得る参照情報は、登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。

概要

Mass Submission System (MSS) は、比較的大規模な塩基配列データ (reads ではない) をファイル送付により登録するサービスです。 登録予定データが、以下の条件に該当する場合は MSS をご利用ください。

  • Web 版塩基配列登録システムが対応していない登録
    • EST、STS、TSA、HTC、GSS、HTG、WGS、CON、TLS
    • データ種別の詳細は、登録データ種別をご確認ください。
  • 配列が長い場合
    • 目安は 500 kb 以上
  • 1エントリあたりに多数の Feature がある場合
    • 目安は 30 以上
  • エントリ数 (登録する配列の数) が多い場合
    • 100 を超えるとき
  • 上記に該当しない場合、Web 版塩基配列登録システム (NSSS: DDBJ Nucleotide Sequence Submission System) のご利用をお勧めしております。
  • また、シークエンサからの出力配列 (reads) を登録する場合は DRA; DDBJ Sequence Read Archive をご参照ください。

MSS 登録の流れ

推奨: A. 登録ファイル作成済みで申し込みいただく場合

登録ファイル作成
D-wayアカウントで https://mss.ddbj.nig.ac.jp/ にログイン
MSS Form に記入、ファイルアップロード
Mass-ID 発行・自動応答メール送付
査定、質問・回答をメールでやりとり
アクセッション番号取得
データ公開または公開日までhold

B. 申し込んでから登録ファイルを作成する場合

D-wayアカウントで https://mss.ddbj.nig.ac.jp/ にログイン
MSS Form に記入
Mass-ID 発行・自動応答メール送付
登録ファイル作成
後日ファイルアップロード
査定、質問・回答をメールでやりとり
アクセッション番号取得
データ公開または公開日までhold

登録ファイルの作成

登録に必要なファイル

  • 配列ファイル
    • 全登録データの配列を FASTA 形式で記述したテキストファイル。
      参照 登録ファイル形式:配列ファイル
  • アノテーションファイル
    • 全登録データの登録者、REFERENCE、Feature/Qualifier の情報等を記述したタブ区切りテキストファイル。
      参照 登録ファイル形式:アノテーションファイル
    • 原核生物ゲノムの登録では、DFAST(DDBJ Fast Annotation and Submission Tool) を利用し、アノテーションファイルを作成することができます。
  • AGP ファイル (CON エントリ登録時のみ必要)
    • CON エントリを構築する際のピースエントリの順序、種類、方向等が記載された、9列からなるタブ区切りテキストファイル。
      AGP ファイルのみで配列が構築可能である場合は、配列ファイル送付は必要ありません。
      参照 登録ファイル形式: AGP ファイル

BioProject & BioSample ID の取得

  • 登録種別に応じ、登録ファイル作成時には事前に BioProject ID、BioSample ID (含 locus_tag prefix 予約)の取得が必要です。
  • 対応表を参照してください。

アノテーション記載について

  • アノテーションファイルサンプル
  • 原核生物ゲノムのアノテーションファイル作成には、DFAST (DDBJ Fast Annotation and Submission Tool) の利用を推奨しています。
    • DFAST を利用した登録ファイルの作成をお読みいただき、登録ファイルを取得してください。
  • 全長規模のゲノム配列では source と assembly_gap 以外の biological feature の記載は任意ですが、過去に登録例がない新規性の高い種が対象の場合、最低でも1つのゲノムに代表としてアノテーションの記載が必要です。
  • 全長規模のゲノム配列でアノテーションを記載する場合は、BioSample の登録時に locus_tag prefix の取得が必要です。
  • TSA では source と assembly_gap 以外の biological feature の記載は任意であり、基本的には不要です。
  • EST には、source 以外の biological feature を記載できません。
  • アノテーションが必要なデータ種別については、対応表を参照してください。

ファイルチェックツール

DDBJ に登録ファイルを送る前に、必ず作成したファイルを DDBJ が提供するデータファイル用チェックツールを用いてチェックを実行してください。

  • UME (Utilities for MSS file Error check)
    配列ファイルとアノテーションファイルのフォーマットチェックと、それらファイルの記載を元に CDS feature のアミノ酸翻訳チェックを行います。Parser と transChecker を内包しています。
    OS: Windows, Linux/macOS
    説明:UME ユーザーマニュアル
  • Parser
    [配列ファイル]/ddbj/file-format.html#sequence)とアノテーションファイルのフォーマットチェックを行います。
    OS: Linux
    説明:Parser ユーザーマニュアル
  • transChecker
    配列ファイルとアノテーションファイルの記載を元に CDS feature のアミノ酸翻訳チェックを行います。
    OS: Linux
    説明:transChecker ユーザーマニュアル

ダウンロード: MSS データファイル用チェックツール

  • データファイル用チェックツールには登録用ファイルを作成する機能はありません。ご使用の PC で利用されているテキストエディタ、表計算ソフトなどでファイルの作成をして下さい。
  • 未定義文字の使用やコントロールコードの混入等によるシンタックスエラーは、登録処理作業時に大きな障害となり、アクセッション番号の発行が大幅に遅れる原因となります。
  • Biological feature として CDS feature を含むデータは、UME または transChecker を用いて、必ずアミノ酸翻訳チェックを実行してください。
  • ツールのご利用前に使用許諾をご確認ください。

アカウント作成

  • D-way 登録アカウントをお持ちでない場合、D-way の “Register for a new account “ より作成して下さい(ヘルプ)。
  • SCP/SFTP 転送を利用いただくには、アカウントへの公開鍵と Center name の設定が必要です。ファイル転送手順につきましては、「データのアップロード」をご参照ください。

登録申し込み

MSS 申し込みフォームから行って下さい。単一の申し込みは、以下の条件を全て満たすエントリセットの場合のみとなっております。一つでも条件が異なるエントリを登録する場合には、複数回の申し込みが必要となります。
事前に登録ファイルを用意されていますと、申し込みフォーム入力時にファイルをアップロードできます。入力時にファイルをアップロードできない場合には、返信メールにアップロードに関連する内容が提示致されますので、後日アップロードしてください。

申し込みが完了しますと、当該登録に対して Mass-ID が発行されます。DDBJ から送信されますメールのヘッダーには Mass-ID([DDBJ:NSUB000001]) が表示されますので、返信される際には、メールヘッダの Mass-ID を維持して下さい。

同一Submissionでの申し込み条件
・コンタクトパーソンが同一
・データ種別が同一
・公開予定日が同一
  • 同じSubmissionでの申し込み可能な例
    • バクテリア20菌株のドラフトゲノム → WGS: Whole Genome Shotgun
    • Finished level genome sequence 3個体の真核生物ゲノム → GNM: Finished Level Genome sequence, non-WGS
    • 生物種ごとにアセンブルした転写物配列、複数生物種由来の複数セット → TSA: Transcriptome Shotgun Assembly

複数回に分けての申し込みが必要な例

a. 単一のバクテリア菌株のchromosomeのドラフトゲノムとプラスミド全長配列(1個または複数個)
2回に分けて申し込んでください
  • ドラフトゲノム → WGS: Whole Genome Shotgun
  • プラスミド全長配列 → MISC: Sequences that are not included in above types
b. 単一真核生物個体の chromosome ドラフトゲノムとオルガネラゲノムの全長
2回に分けて申し込んでください
  • Chromosomeのドラフトゲノム → WGS: Whole Genome Shotgun
  • オルガネラゲノムの全長 → MISC: Sequences that are not included in above types
c. 単一真核生物個体の chromosome ドラフトゲノムとアセンブルした大規模転写物配列
2回に分けて申し込んでください
  • Chromosomeのドラフトゲノム → WGS: Whole Genome Shotgun
  • アセンブルした大規模転写物配列 → TSA: Transcriptome Shotgun Assembly

登録ファイル送付方法

  • MSS formからアップロード
    MSS form での利用申請時に登録ファイルをアップロードできます。申請時にファイルをアップロードできない場合には、申請完了後に通知されるメールにアップロードサイトへのリンクが表示されますので、登録ファイル完成後に登録ファイルをアップロードして下さい。
  • SFTP によるファイル転送
    ファイルサイズが合計で 10 Gbyte を超える場合は、公開鍵と秘密鍵を用いた SCP/SFTP によるファイル転送をお勧めいたします。アカウントにCenter name と認証用公開鍵を登録後、「データのアップロード」に従い転送してください。

<お願い> 特に理由のない限り、電子メール添付による登録ファイル送付はおやめください。

査定作業

チェックツールによる検証を行った後、配列ファイルとアノテーションファイルを DDBJ にアップロードしてください。

送付された全データを DDBJ で査定し、修正依頼や疑問等があれば通知します。ファイルの内容に問題がなければ、データ登録作業を行い、Contact person のメールアドレス、または登録担当者宛に、アクセッション番号通知メールを送信します。

全ファイルを送付する前に、登録予定データの一部(数 entry 分)をテストデータとして登録ファイルを送付し、DDBJ に確認を依頼することが可能です(このステップは省略可能です)。

データ公開

登録時に即日公開を希望した場合は、可能な限り速やかに公開します。 公開予定日 (hold_date)を指定した場合は、公開原則に基づいて公開します。 登録された塩基配列データは、DDBJ の定める方法で塩基配列ファイルとアノテーションファイルの内容に基づき変換を行い、フラットファイル (flat file)形式として公開されます。 アノテーションファイルとフラットファイルの対応関係をご参照ください。

BioProject/BioSample ID の要否

  • Genome
Your submission BioProject BioSample Annotation with
biological feature
locus_tag Need DRA You should select
Draft genome w/ annotation M M M M OPT WGS
Draft genome w/o annotation M M NR NR OPT WGS
Finished level genome sequence, non-WGS M M M M OPT GNM
Metagenome-Assembled Genome w/ annotation M M M M M MAG
Metagenome-Assembled Genome w/o annotation M M NR NR M MAG
Single Amplified Genome w/ annotation M M M M OPT SAG
Single Amplified Genome w/o annotation M M NR NR OPT SAG
High Throughput Genomic Sequences M M OPT NR OPT HTG
Transcriptome Shotgun Assembly M M OPT NR M TSA
High Throughput cDNA Sequences M M OPT NR OPT HTC
Expressed Sequence Tags M M NR NR OPT EST
Virus/Phage genome NR NR OPT NR OPT MISC
Plasmid genome only NR NR OPT NR OPT MISC
Organelle genome only NR NR OPT NR OPT MISC
Finished Level Genome + Plasmid M M M M OPT GNM, MISC for each submission
Finished Level Genome + Organelle M M M M OPT GNM, MISC for each submission

M, Mandatory; NR, Not required; OPT, Optional

  • Transcriptome
Your submission BioProject BioSample Annotation with
biological feature
locus_tag Need DRA You should select
Transcriptome Shotgun Assembly M M OPT NR M TSA
High Throughput cDNA Sequences M M OPT NR OPT HTC
Expressed Sequence Tags M M NR NR OPT EST

M, Mandatory; NR, Not required; OPT, Optional

  • Targeted Locus Study
Your submission BioProject BioSample Annotation with
biological feature
locus_tag Need DRA You should select
Targeted Locus Study M M M NR OPT TLS

M, Mandatory; NR, Not required; OPT, Optional

DFAST について: 原核生物ゲノムの登録

DFAST(DDBJ Fast Annotation and Submission Tool)

DFAST は、原核生物ゲノムの高速自動アノテーションパイプラインで、DDBJ に直接登録可能なアノテーションファイルを取得できます。Annotated/Assembled Sequences database へ原核生物ゲノムを登録する際には、DFAST の利用を強く推奨しています。

原核生物ゲノムの登録の手順

  1. DFAST で解析した原核生物ゲノムを Annotated/Assembled Sequences database に登録するには、事前にBioProject、BioSample、locus_tag preifx(Biogical featureを記載する場合)の登録が必要です。
  2. D-way アカウントで DFAST にログインすると 、解析(job)の履歴管理ができます。アカウントを持っていない場合にはアカウントの作成方法をご一読下さい。

DFAST のデータを Submit するには

  1. DFAST にアクセスし、D-way アカウントでログインします。ジョブ投入画面において塩基配列ファイルをアップロードすると、解析が始まり job ID が発行されます。job 終了後、”DDBJ submission” タブをクリックします。DDBJ への登録に必要な項目(BioProject ID、BioSample ID、locus_tag prefix、その他のメタ情報)を入力すると、MSS 登録ファイルが作成されます。(注1)
  2. 実行したjobの履歴管理画面にて登録を希望する job ID をチェックして選択状態にします。
  3. ファイル形式に”MSS”を選択し”DOWNLOAD”ボタンをクリックしてファイルをダウンロードしてください。このとき入力されたメタ情報のチェックを行います。警告が出た場合には入力した情報を確認してください(注2)。ファイルダウンロード後にテキストエディタ等で開いて修正をすることも可能です。
  4. MSS 申し込みを行ってください。MSS による登録の流れの手順にしたがい、ダウンロードした登録ファイルを DDBJ に送付してください。

注1)ログインしていない状態でも DFAST を使ってゲノムアノテーションをすることは可能です。その場合には、履歴管理画面で job ID を指定して実行済みのjobを履歴に取り込むことができます。

注2)メタ情報のチェックは簡易的なものですのでキュレーターによる査定時に修正が必要になることもあります。

Related pages

  • 登録ファイル形式
  • MSS データファイル用チェックツール
  • UME ユーザーマニュアル
  • Parser ユーザーマニュアル
  • transChecker ユーザーマニュアル
  • validator エラーメッセージ
  • MSS 利用申し込み