问题标签 [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
gzip - 有没有办法将 vcf.gz 文件直接转换为 vcf.bgz 文件?
我不想先解压缩 vcf.gz 文件,因为它是一个大文件,我的笔记本电脑没有空间存放它。我试着做:
gunzip -c file.vcf.gz > bgzip -c > file.vcf.bgz
但它没有用。想法?
bash - 解析 VCF 文件的 INFO 字段
请帮我解析一个VCF文件。我正在粘贴一个真实的例子。
输入:
我需要一个输出:
这意味着打印第2,3,4,5列,然后解析最后一列并仅打印CLNSIG和CLNDBN。问题是,这些值并不总是处于相同的位置。
我的尝试是:
...然后我不知道如何获得CLNSIG和CLNDBN。
谢谢你的任何想法。
bioinformatics - snakemake:在另一个规则上以错误模式处理规则连接
我需要在同一个蛇文件中运行两个规则(gatk_Mutect2
和)。gatk_IndelRealigner
如果将这些规则放在不同的蛇文件中,我可以毫无错误地运行它们。
我使用两个输入函数(get_files_somatic
和get_files
)。两者都使用案例名称作为字典键。(每个案例都有一个正常的)。当我将这些规则放在同一个蛇文件中时,snakemake 会尝试在gatk_IndelRealigner
.
我的问题是:如何管理两条规则的歧义?我的意思是我希望snakemake 不要试图将这两个规则联系起来。
python - 如何选择要处理的多个文件夹和文件
当前脚本在同一文件夹中的两个文件上运行。每次我必须运行不同的情况时,我必须用正确的文件夹(即 11221 而不是 11220)和该文件夹中的正确文件名(即 11221_S1 而不是 11220_S1)替换脚本中的路径并再次运行脚本.
有没有办法让脚本选择 /mypath 中包含的所有文件夹,并在该文件夹中选择脚本运行所需的两个文件?所以我不需要手动替换每个文件的脚本中的文本。
提前谢谢你 卢卡
python - 打印返回值的 Python 可以是列表或 int
我正在使用 pyVCF 读取 VCF 文件,返回的sample['AD']
可以是 a list
like[8, 14]
或 an int
like 5
。
如果我使用','.join(map(str,sample['AD']))
,它将停止int
返回为“TypeError:'int' object is not iterable”。
在这两种情况下,我如何编写它来打印它?
回复评论:
只是普通的代码。但是 VCF 文件带有两种AD
.
java - 如何使用 GNU 并行工具为一批 VCF 文件运行 SNPEff jar?
如何使用 GNU 并行工具为一批 VCF 文件(300 个项目)运行 SNPEff jar?需要一个代码示例。只找到一个与我的问题.s.GNU parallel, execution of commands from file a time a time类似的例子。谢谢。
regex - 从 vcf 文件中提取字符串
我需要从几万行文件中的RS=368138379
以下行中提取字符串。vcf
我想知道我们如何使用grep -o ""
正则表达式来快速提取它?
确实非常感谢。
python - Snakemake:为具有多个子组的一个输出使用多个输入的规则
我有一个工作管道,用于下载、对齐和执行公共测序数据的变体调用。问题是它目前只能在每个样本的基础上工作(即样本作为每个单独的测序实验)。如果我想对一组实验(例如样本的生物和/或技术复制)执行变体调用,它不起作用。我试图解决它,但我无法让它工作。
这是对齐规则的简化:
对于变体调用也是如此:
这很好用,因为.vcf
每个对齐的文件都会生成一个.bam
文件。但我想做的是.vcf
从任意数量的文件生成单个.bam
文件。我有一个pandas
数据框,其中包含所有sample
名称及其对应的group
. 我基本上想将output
第二条规则的 更改为'{group}/variants/{group}.vcf'
,但我所做的一切都以某种方式失败了。
我的想法是为规则提供所有按组对齐的.bam
文件作为输入,然后只给它运行它们所在目录的脚本。问题是我找不到以这种每组方式提供输入的方法:要么我给每个样本(作为工作管道),要么我给.bam
每个组变体调用的所有文件,不管是哪个组他们实际上属于。我不能只使用通配符,因为{sample}
最后一个输出中不存在通配符。我也尝试使用函数作为输入,但这会导致与上述相同的问题。
问题的症结似乎是分组的层次:如果我想对.bam
整个数据集中所有对齐的文件执行变体调用,那可能会很好,给出我上面提到的问题。问题来自整个数据集的子组:
关于如何解决这个问题的任何想法?
bash - Bash:文本处理命令
我已经能够用一个命令行做我想做的事,但我知道必须有一些更优雅的方式来做我正在做的事情。请告诉我您的方法是什么...我想学习更复杂的处理文本文件的方法...
原始文件是一个vcf文件,看起来像这样
我的目标是生成一个如下所示的文件:
我做了以下步骤来实现最终目标,但它太麻烦而且太丑陋了......
我能够得到我需要的东西,但是.. gahhh,这太丑了。请告诉我人们做了什么来提高他们的文本处理技能以及如何改进这样的事情......谢谢!