DRA では NCBI SRA Toolkit に含まれている fastq-dump を使い,以下のオプションで生データである SRA ファイルから fastq ファイルを作成しています。

fastq-dump -M 25 -E --skip-technical --split-3 -W <SRA file>

  • -M 25: 25 塩基以上の配列のみを含める。デフォルトは 25。
  • -E: リードの開始,もしくは終わりに 10 以上の N が存在しない
  • --skip-technical: technical read を除き biological read のみを出力
  • --split-3: ペアリードで最初と二番目の biological read をそれぞれ *_1.fastq と *_2.fastq として出力する。一つしか biological read が存在しない場合,*.fastq として出力する。
  • -W: 指定されていた場合,left と right を clip する

上記の出力条件でリードがフィルタリング,トリミングされるため,一般的に fastq のリード数は SRA ファイルのそれよりも少なくなっています。フィルタリング,トリミングされていない fastq ファイルを得るには以下のコマンドで fastq を生成します。

fastq-dump -M 1 --split-3 <SRA file>