问题标签 [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将 VCF 文件加载到内存中,然后使用 pyvcf 读取它
我是python和生物信息学的新手。
我正在尝试首先将 VCF 文件加载到内存中,然后使用 pyvcf 库对其进行解析,但出现此错误:“IndexError: list index out of range*” 我在互联网上搜索过,但我没有找不到任何答案。
顺便说一句,代码是:
我应该怎么办?有没有更好的方法来做到这一点?
应该提到的是,更改 pyvcf 库并移动到另一个库是不可能的,因为我已经编写了数百行代码来完成一些任务。我只想将 vcf 文件加载到内存中,然后使用 pyvcf 执行这些任务。
python - 根据特定列的 len() 提取文本行
我正在尝试编写一个简单的脚本来从 VCF 文件中提取特定数据,该文件显示基因组序列中的变体。
该脚本需要从文件中提取标头以及 SNV,同时省略任何插入删除。变体显示在 2 列中,即 ALT 和 REF。每列由空格分隔。Indels 在 ALT 或 REF 中将有 2 个字符,SNV 将始终有 1 个。
到目前为止,我提取了标题(始终以## 开头),但没有提取任何变体数据。
linux - 如何提取没有扩展名的文件名并使用提取的名称更改同一文件中的标题?
我有大约 30 个 VCF 文件,文件名为ID_001.new.vcf
. 我只想从文件名中提取“ID_001”部分,并在给出“Sample1”的 VCF 文件的标题行中更改它:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT Sample1
所以结果看起来像:
我该怎么做?
我曾尝试echo
在 bash 中使用并从文件名中提取 ID,但我无法对其进行迭代以在文件内进行更改。
谢谢你的帮助。
bioinformatics - 转换为 BCF 之前的 vcf 文件修改
我正在将新的 vcf 文件添加到以前制作的 bcf 文件中,其中 VCF 中的 ID 字段已设置为CHR:POS:POS:REF:ALT
?
如何将 VCF 中的 ID 字段设置为CHR:POS:POS:REF:ALT
?
python - 如何在另一个更大的数组(6亿个元素)中找到一个大的(100万个元素)数组的元素
我有一个非常大的文件(包含 dbSNP ID),包含 100 万行,每行包含一个字符串,另一个更大的文件 (.vcf) 包含 6 亿行,每行包含 7-8 列。
我想在较大的文件中找到较小文件的每一行的第一次出现,使我的程序的蛮力复杂度为 1,000,000 * 600,000,000 次。我想要一种更快、更少内存密集型的方式来执行此操作。我是 python 中的多处理或并行编程的新手,我不确定如何在不使用任何一个的情况下解决这个问题。
numpy
我已经尝试使用和pandas
库对两个文件的较小子集执行类似的操作:
这需要很长时间才能执行,我确信可以使用 python 多处理很好地处理。
linux - 在 MAC 上安装 bcftools 时如何解决此错误?C 的问题:[ploidy.o] 错误 1
我正在尝试在 Mac 上安装 bcftools 以处理 VCF 文件,但是在执行正确安装时遇到了一些问题,特别是在执行“make”时。
bfctools 的安装说明出现在以下链接中,我尝试按照步骤操作,但问题出现在“make”中。
安装 samstools 和 HTSlib 也会出现同样的问题。
其他安装链接如下:
这是尝试安装时发生的情况
我附上了我用 brew 安装的依赖项:
我已经咨询了一些朋友,使用相同版本的MAC没有这个问题:Mojave: 10.14.3
。
- 注意:Xcode 版本:
Xcode-select version 2354
我的最后一个选择是安装虚拟机,但我再说一遍,一些具有类似特征的用户已经安装了 bcftools
linux - 是否可以部分解压缩 .vcf 文件?
我有一个约 300 GB 的压缩 vcf 文件 (.vcf.gz),其中包含大约 700 只狗的基因组。我只对其中的几只狗感兴趣,目前我没有足够的空间来解压缩整个文件,尽管我正在准备一台计算机来执行此操作。是否可以仅解压缩文件的一部分以开始测试我的脚本?
我正在尝试在样本子集的某个位置找到特定的 SNP。我尝试使用bcftools无济于事:(如果有人能找出问题所在,我也会非常感激。我为输出创建了一个空文件(722g.990.SNP.INDEL.chrAll.vcf.bgz)但是它返回以下错误)
无法识别输出类型“722g.990.SNP.INDEL.chrAll.vcf.bgz”
我打算尝试awk,但需要先解压缩文件。是否可以部分解压缩它以便我可以试试这个?
python - gatk VariantRecalibrator 上的 Snakemake
我是使用snakemake 的新手,在snakemake 上执行步骤gatk VariantRecalibrator 时遇到问题,它产生错误,但脚本在非snakemake 格式时可以正常运行。
错误:设置系统属性 GATK_STACKTRACE_ON_USER_EXCEPTION (--java-options '-DGATK_STACKTRACE_ON_USER_EXCEPTION=true') 以打印堆栈跟踪。[Thu May 30 08:05:30 2019] 规则 vqsr 中的错误:jobid:1 输出:VCFs/CHS.recal.vcf、VCFs/CHS.output.tranches、VCFs/CHS.output.plots.R
如果我使用相同的代码,我可以运行以创建 recal 文件和 tranches,并且可以转到下一步 applyvqsr,但是如果我将它放入 snakemake 它有错误并且第 27 行是 gatk --java-options -Xmx16g VariantRecalibrator是错误,但我不知道它是什么错误。请指教。
python - Python函数在循环内不起作用
我正在尝试创建一个代码来比较基因文件和基因面板。基因面板文件为 csv 格式,具有染色体、基因、起始位置和结束位置。患者档案有染色体、突变和位置。所以我做了一个循环,将基因面板信息传递给一个函数,在该函数中进行比较以返回一个相似项目的列表。当我使用手动数据调用该函数时,该函数效果很好。但不要在循环内进行比较。
我想获取列表中匹配突变的详细信息。当我手动将数据传递给函数时,这可以按预期工作。eg.findMutations('TESTGene','chr8','146171437','146229161') 但是通过循环时不比较
r - 使用 %in% 根据染色体和位置过滤行
我有两个数据框:一个是带有基因型信息的 VCF,另一个是“特殊”SNP 位置的数据框。使用 dplyr,我想仅针对特殊 SNP 的数据框中存在的那些位置过滤 VCF,但是,我无法弄清楚如何将 %in% 用于多列。
VCF 数据框:
SPECIAL_SNP 数据框:
期望的输出:
我在想类似的事情:
提前感谢您的帮助。