DDBJ Annotated/Assembled Sequences
MSS - Mass Submission System
ヒトを対象とした研究データの登録について
ヒトを対象とした全ての研究において DDBJ に送付するデータの由来である個人 (研究対象者)
の尊厳及び人権は、適用されるべき法律、規定、登録者が所属している機関の方針に従い、登録者の責任において保護されている必要があります。
原則として、研究対象者を直接特定し得る参照情報は、登録データから取り除いてください。
ヒトを対象とした研究データを登録する場合は「ヒトを対象とした研究データの登録について」をご覧ください。
MSS とは?
Mass Submission System (MSS) は、比較的大規模な塩基配列データ (reads ではない) をファイル送付により登録するサービスです。登録予定データが、以下のような条件に該当する場合はMSS をご利用ください。
データの種別については登録データ種別をご確認ください。
上記の条件を満たさない配列の登録は、Web 版塩基配列登録システム (NSSS: DDBJ Nucleotide Sequence Submission System) のご利用をお勧めしております。
また、シークエンサからの出力配列 (reads) を登録する場合は DRA; DDBJ Sequence Read Archive をご参照ください。
MSS による登録の流れ
1. 申し込み
MSS の利用をご希望の場合は、MSS 申し込みフォームからご連絡ください。
DDBJ で受付した後に、より詳細な手順および作業を支援するソフトウェアをご紹介いたします。
事前準備
以下に該当する場合、事前に BioProject、BioSample の登録をお願いいたします。
- 全長規模のゲノム:
- トランスクリプトーム: TSA (Transcriptome Shotgun Assembly)、EST
- TSA の場合、assemble 前のデータを事前に DRA へ登録することが必須です。
- EST の場合、厳密には BioProject、BioSample の登録は必須ではありませんが、推奨します。
- TLS (Targeted Locus Study)
アノテーションの記載
- 全長規模のゲノム配列では source と assembly_gap 以外の biological feature の記載は任意ですが、過去に登録例がない新規性の高い種が対象の場合、最低でも1つのゲノムに代表として feature annotation の記載が必要です。
- 全長規模のゲノム配列でアノテーションを記載する場合は、BioSample の登録時に locus_tag prefix の取得が必要です。
- 原核生物のゲノムでは、DFAST (DDBJ Fast Annotation and Submission Tool) の利用を推奨しています。
- TSA では source と assembly_gap 以外の biological feature の記載は任意であり、基本的には不要です。
- EST には、source 以外の biological feature は記載できません。
2. 登録ファイルの作成と送付
登録に必要なファイルの作成
- 配列ファイル
- 全登録データの配列を FASTA 形式で記述したテキストファイル。
- 詳細:登録ファイル形式:配列ファイル
- アノテーションファイル
- 全登録データの登録者、REFERENCE、Feature/Qualifier の情報等を記述したタブ区切りテキストファイル。
- 詳細:登録ファイル形式:アノテーションファイル
- AGP ファイル(CON エントリの登録の場合
- CON エントリを構築する際のピースエントリの順序、種類、方向等が記載された、9列からなるタブ区切りテキストファイル。
- AGP ファイルのみで配列が構築可能である場合、配列ファイルは必要ありません。
- 詳細:登録ファイル形式: AGP ファイル
TSA, complete genome, draft genome (WGS or HTG) を登録する場合は、あらかじめBioProject/BioSample への登録を行い、取得したアクセッション番号をアノテーションファイル内に記載してください。
ファイルのチェック
DDBJ に登録ファイルを送る前に、作成したファイルを DDBJ が提供するデータファイル用チェックツールを用いてチェックを実行してください。
- UME (Utilities for MSS file Error check)
- 配列ファイル と アノテーションファイルのフォーマットチェックと、それらファイルの記載を元に CDS featureのアミノ酸翻訳チェックを行います。 Parser と transChecker を内包しています。
- OS : Windows, Unix/macOS
- 詳細:UME ユーザーマニュアル
- Parser
- 配列ファイル と アノテーションファイル のフォーマットチェックを行います。
- OS : Unix
- 詳細:Parser ユーザーマニュアル
- transChecker
- 配列ファイル と アノテーションファイル の記載を元に CDS feature のアミノ酸翻訳チェックを行います。
- OS : Unix
- 詳細:transChecker ユーザーマニュアル
データフィル用チェックツールは MSS データファイル用チェックツール からダウンロードできます
- データファイル用チェックツールには登録用ファイルを作成する機能はありません。お使いの PC で利用されているテキストエディタ, 表計算ソフトなどでファイルの作成をお願いいたします。
- 未定義文字の使用やコントロールコードの混入等によるシンタックスエラーは、登録処理作業時に大きな障害となり、アクセッション番号の発行が大幅に遅れる原因となります。
- Biological feature として CDS feature を含むデータは、UME または transChecker を用いて、アミノ酸翻訳チェックを実行してください。
- ご利用前に 使用許諾 をご確認ください。
3. 査定作業
チェックツールによる検証を行った後、配列ファイルとアノテーションファイルを DDBJ に送付してください。
- 全ファイルを送付する前に、登録予定データの一部(数 entry 分)をテストデータとして登録ファイルを送付し、DDBJ に確認を依頼することも可能です(このステップは省略可能です)。
送付された全データをDDBJ で査定し、修正依頼や疑問等があれば通知します。
ファイルの内容に問題がなければ、データ登録作業を行い、Contact person のメールアドレス宛に、アクセッション番号の通知メールを送信します。
ファイルの送付方法
- 電子メールに添付して送信する
- SCP によるファイル転送
- ファイルサイズが合計で 10 M byte を超える場合は、公開鍵と秘密鍵を用いた SCP によるファイル転送をお勧めいたします。
- ファイル転送を利用するには、DDBJ Submission Portal D-way にて登録アカウントを取得する必要があります。 詳細手順につきましては、ファイルのアップロード方法またはチュートリアル動画をご参照ください。
- チュートリアル動画
- 鍵ペアの作成(Windows/macOS)
- データの転送(Windows/macOS)
4. データ公開
登録時に即日公開を希望した場合は、可能な限り速やかに公開します。 公開予定日 (hold_date) を指定した場合は、公開原則に基づいて公開します。
登録された塩基配列データは、配列ファイルとアノテーションファイルの内容に基づき、DDBJ の定めるフォーマットにしたがったフラットファイル (flat file)の形式で公開されています。
アノテーションファイルとフラットファイルの対応関係もご参照ください。