IGSR: The International Genome Sample Resource は 1000 Genomes サンプルの高カバレージシークエンスデータ、解析後の bam/VCF や 1000 Genomes 以外のオープンアクセスの個人ゲノムデータを集積、公開しています。

生命情報・DDBJ センターは汎用される大規模データセットをミラーリングし、スパコンで統合解析できる環境整備を進めており、今年5月には NCBI 1000 Genomes サイトをミラーリングし ftp から公開いたしました

今年11月に IGSR から 1000 Genomes の高カバレージのシークエンスデータが追加公開されたため、データセットの取得を進めております。

現在までに 1000 Genomes データではありませんが IGSR data collection の一環として提供されている "Simons Diversity Project" データの ERR Run SRA ファイルの取得が完了しておりますので、お知らせいたします。

Simons Diversity Project ERR Run accession リスト:
ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/simons_diversity_data/simons_diversity_wgs.sequence.index

ERR Run データファイルパスの例

  • ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/ERX/ERX109/ERX1097985/ERR1019045/ERR1019045.sra
  • ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/ERX/ERX110/ERX1104489/ERR1419152/ERR1419152.sra
  • ftp://ftp.ddbj.nig.ac.jp/ddbj_database/dra/sralite/ByExp/litesra/ERX/ERX146/ERX1462750/ERR1425293/ERR1425293.sra

SRA ファイルの fastq への変換方法は以下のサイトをご参照ください。HowTo: fasterq dump