• DDBJ Search で新規公開・再公開された DRA が検索できません
  • getentryでENAとGenBankから特定期間に公開されたエントリーを反映できていない

DDBJ Annotated/Assembled Sequences

  • Home
  • Submission
    • 塩基配列の登録
    • Web 版塩基配列登録システム
    • Mass Submission System
    • 登録データの修正・更新
  • Search
    • getentry
    • ARSA
  • Flat file
    • Feature Table
    • Feature key の定義
    • Qualifier key の定義
    • 塩基配列について
    • Organism qualifier に記載する生物名
    • 識別子について
    • Location の記述法
    • タンパク質コード配列
    • The Genetic Codes
    • 配列の記載に用いる略号
    • 配列データ記載例
  • Data categories
    • Genome project のデータ登録
    • Pseudohaplotype
    • WGS
    • Finished level genomic sequences
    • メタゲノムアセンブリ
    • Single amplified genome
    • HTG
    • Environmental sample
    • ENV
    • TLS
    • Transcriptome Project のデータ登録
    • TSA
    • EST
    • HTC
    • Third Party Data (TPA)
  • FAQ
  • Other
    • Patent
    • MGA
  • ホーム
  • ddbj
  • transChecker ユーザーマニュアル

transChecker ユーザーマニュアル

transChecker は Mass Submission System (MSS) を利用して DDBJ に登録する際に必要なアノテーションファイルと塩基配列ファイル の記載を元に、CDS feature のアミノ酸翻訳エラーチェックを行うCUIツールです。

インストール

1. transChecker ファイルの取得

MSS データファイル用チェックツール から transChecker_V#.##.tar.gz (# はバージョンを表します)をダウンロードしてください。

2. 解凍

$ gunzip -c transChecker_V#.##.tar.gz | tar xvf -

解凍後に transChecker ディレクトリが作成されます。ディレクトリの中身を見ると、以下のようになっています。

$ ls -FC transChecker/
jar/  license.txt  transChecker.sh*
jar/ java のクラスライブラリ格納ディレクトリ(改変不可)
license.txt 使用許諾(改変不可)
transChecker.sh 実行シェルスクリプト

3. 実行シェルスクリプトを編集

transChecker.sh の一部をインストール場所に合わせて変更します。nano や vi などのエディタで編集して下さい。

例) /home/mass ディレクトリ配下に解凍した場合

$ cd /home/mass/transChecker
$ nano transChecker.sh

TRANS_DIR= に、transChecker ディレクトリの場所をフルパスで指定します。

# Installed directory
TRANS_DIR=./
  ↓
# Installed directory
TRANS_DIR=/home/mass/transChecker

実行の前に

Parser によるチェックで、アノテーションファイルと塩基配列ファイルにエラーがないことを確認してから、transChecker を実行してください。

使い方

cd <transCheckerを設置したディレクトリ>
./transChecker.sh -x <filename> -s <filename> [-e <filename> -o <filename> -t <filename> -M <memory size>]

オプション詳細。ファイル名は絶対パス、相対パスのどちらでも指定可能です。

-x <アノテーションファイル名>
必須。アノテーションファイルを指定します。アノテーションファイル書式に関しては、登録ファイル形式:アノテーションファイル をご参照下さい。

-x sample.ann

-s <塩基配列ファイル名>
必須。塩基配列ファイルを指定します。 塩基配列ファイル書式に関しては、登録ファイル形式:配列ファイルをご参照下さい。

-s sample.fasta

-e <エラー出力用ファイル名>
任意。アミノ酸配列への翻訳で生じたエラーを出力する場合のファイル名を指定します。このオプションを指定しない場合、画面に結果が出力されます。翻訳エラーがない場合は何も出力されません。

-e result.txt

-o <アミノ酸配列出力用ファイル名>
任意。翻訳アミノ酸配列を出力するファイル名を指定します。このオプションを指定しない場合、結果は出力されません。出力書式は [FASTA-like format] の通りです。

-o aaseq.txt

-t <翻訳配列をともなう塩基配列出力用ファイル名>
任意。CDSの塩基配列上に対応アミノ酸配列を出力するためのファイル名を指定します。このオプションを指定しない場合、結果は出力されません。出力フォーマットは[塩基配列上に対応アミノ酸配列を出力]をご参照ください。

-t nucwithaa.txt

-M <最大メモリサイズ>
任意。コマンド実行時に許可する最大メモリサイズをmegabyteで指定します。アノテーションファイルまたは塩基配列ファイルのサイズが大きい場合に使用します。このオプションを指定しない場合は、transChecker.sh スクリプト内 DEFAULT_MAX_HEAP= のメモリ量が使われます。

-M 8192m

macOS: ファイル名とフォルダ名について

アノテーションファイル、配列ファイルのファイル名またはフォルダ名にマルチバイト文字が含まれていますと一部のバージョンの macOS では正常に動作しない場合がありますので、ファイル名とフォルダ名にマルチバイト文字を混在させないようにご注意ください。

実行例

例1

$ cd /home/mass/transChecker
$ ./transChecker.sh -x sample1.ann -s sample1.fasta

例2

$ cd /home/mass/transChecker
$ ./transChecker.sh -x sample2.ann -s sample2.fasta -e result.txt -o aaseq.txt -t nucwithaa.txt -M 16384m

-o -t オプションの出力フォーマット

CDS feature にエラーがある場合でも、CDS で示される塩基配列に対応するアミノ酸配列をその状態で出力しますが、エラーの程度により出力されないことがあります。

FASTA-like format (-o オプション)

FASTA に類似の形式で翻訳アミノ酸配列を出力します。

書式

>[entry name].[sequential serial number][space][CDS feature location]
[翻訳結果アミノ酸配列 (60 文字/行)]
//

例

>entry1.1 89..406
MLARISELTKIGTTIFIVAIDQVAEPNSWGSSQLVLLAKIAGALKAIPPNPVCTSRHRQA
ASVSPFRSAIVGTLLQLEAIKNLLTVSVDTIQQNGVLFIFVALLR
//
>entry1.2 684..1325
MSIGILGTKLGMTQIFDESGKAVPVTVIQAGPCPITQIKTVATDGYNAIQIGFLEVREKQ
LSKPELGHLSKAGAPPLRHLLEYRVPSTDGLELGQALTADRFEAGQKVDVQGHTIGRGFT
GYQKRHGFARGPMSHGSKNHRLPGSTGAGTTPGRVYPGKRMAGRSGNDKTTIRGLTVVRV
DADRNLLLVKGSVPGKPGALLNITPATVVGQQA
//

塩基配列上に対応アミノ酸配列を出力 (-t オプション)

CDS の塩基配列とともに対応するアミノ酸配列を出力します。

書式

>[entry name].[sequential serial Number][space][CDS feature location]
/codon_start=[codon_start の値; 指定なしの場合 1]
/transl_table=[transl_table の値; 指定なしの場合 1]
[塩基数][塩基配列 (60 文字/行)]
[アミノ酸残基数][翻訳結果アミノ酸配列 (20 文字/行)]
[空行]
  :
  :
//

例

>ENT01.1 <1..179
/codon_start=3
/transl_table=1
         1 tgtacccactcaattttgtaaccccgggtatcatgctcccaggtgcattgatgttggatt
         1   Y  P  L  N  F  V  T  P  G  I  M  L  P  G  A  L  M  L  D  F

        61 tcacgatgtatctgacgcgtaactggctggtgaccgcattggttggaggtggattctttg
        21   T  M  Y  L  T  R  N  W  L  V  T  A  L  V  G  G  G  F  F  G

       121 gtctgctgttttacccaggtaactggccaatctttggcccgacccatctgccaatctaa
        41   L  L  F  Y  P  G  N  W  P  I  F  G  P  T  H  L  P  I  
//
>ENT02.1 101..280
/codon_start=1
/transl_table=1
         1 atgtacccactcaattttgtaaccccgggtatcatgctcccaggtgcattgatgttggat
         1 M  Y  P  L  N  F  V  T  P  G  I  M  L  P  G  A  L  M  L  D

        61 ttcacgatgtatctgacgcgtaactggctggtgaccgcattggttggaggtggattcttt
        21 F  T  M  Y  L  T  R  N  W  L  V  T  A  L  V  G  G  G  F  F

       121 ggtctgctgttttacccaggtaactggccaatctttggcccgacccatctgccaatctaa
        41 G  L  L  F  Y  P  G  N  W  P  I  F  G  P  T  H  L  P  I  
//

エラーメッセージ

CDS feature に翻訳エラーがある場合は、エラーメッセージが出力されます。エラーメッセージの詳細については Validator エラーメッセージ: transChecker をご覧ください。

Related pages

  • 登録ファイル形式
  • MSS データファイル用チェックツール
  • UME ユーザーマニュアル
  • Parser ユーザーマニュアル
  • validator エラーメッセージ
  • MSS 利用申し込み