我是来自德国海德堡大学的莫里茨。
对于我的学士论文,我有 20 个肝细胞癌患者的大型 (25-30 GB) 基因组文件 (.txt.gz)。我在我的 Ubuntu 服务器上安装了 Bpipe,我必须尝试几种方法。
包括的步骤是:
- 针对 hg19.fasta 的对齐(BWA(转换 sai 和 sam))
- 变换 (samtols)
- 重复数据删除
我遇到的问题是,为了尝试我的 bpipe 工作流程,我必须占用 30 GB 的整个序列并从头开始。这需要很多时间。所以我的问题是:
如何缩短一个文件?
在哪里可以找到可用于测试管道的短序列?