0

我是来自德国海德堡大学的莫里茨。

对于我的学士论文,我有 20 个肝细胞癌患者的大型 (25-30 GB) 基因组文件 (.txt.gz)。我在我的 Ubuntu 服务器上安装了 Bpipe,我必须尝试几种方法。

包括的步骤是:

  • 针对 hg19.fasta 的对齐(BWA(转换 sai 和 sam))
  • 变换 (samtols)
  • 重复数据删除

我遇到的问题是,为了尝试我的 bpipe 工作流程,我必须占用 30 GB 的整个序列并从头开始。这需要很多时间。所以我的问题是:

如何缩短一个文件?

在哪里可以找到可用于测试管道的短序列?

4

1 回答 1

0

您可以在 NCBI SRA(序列读取存档数据库)找到许多癌症序列数据集

http://www.ncbi.nlm.nih.gov/sra?term=cancer

可以使用“fastq-dump”将 SRA 格式的序列文件转换为 FASTQ 以与 BWA 对齐

http://azaleasays.com/2011/09/09/convert-sra-format-to-fastq/

于 2013-07-24T20:09:10.980 回答