问题标签 [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 linux 或 python 从文件中提取特定的列和字符串
我在处理 12 Gb 文件时遇到了问题。我是 linux 的新手。我希望这里有人可以帮助我,任何建议表示赞赏。
我有一个名为phase_3.vcf的文件,如下所示:
我想保留前 5 列和字符串 "EAS_AF=" 以及后面的数字。
为简单起见,名为result.txt的结果的预期形式应如下所示:
r - 提取与模式匹配的特定单词
我有一个带有列的数据框:
nf1$Info = AC=1;AF=0.500;AN=2;BaseQRankSum=-1.026e+00;ClippingRankSum=-1.026e+00;DP=4;ExcessHet=3.0103;FS=0.000;MLEAC=1;MLEAF=0.500;MQ=28.25;MQRankSum=-1.026e+00;QD=10.18;ReadPosRankSum=1.03;SOR=0.693
我正在尝试从此列中提取特定值。
例如,我对“MQRankSum”感兴趣,我使用了:
它返回BaseQRankSum而不是MQRankSum的值。
python - 将一行的一部分与python中另一个文件中的每一行进行比较
我正在尝试比较一个文件中的一行并将每个匹配的行放在另一个文件中的输出文件中。例如这里是第一个文件。
然后是另一个文件:
我想要的输出是:
因此,我想获取第一个文件的每一行并查找每一行并搜索第一列是否匹配,如果第 1 列匹配,则文件 1 中的第二个数字在第 4 列和第 5 列的范围内。然后,如果它们匹配,则使用第一个文件中的行编写一个新文件,并在其下的文件 2 中的每个匹配行。这是我尝试过的:
但我从来没有得到我想要的输出。
google-cloud-platform - Google Cloud Genomics Pipeline 区域和区域规范错误
我是谷歌云的新手,被告知要使用Variant Transforms将 .vcf 文件导入 Big Query。我完成了 Variant Transforms 中指定的所有内容,阅读我并将第一块代码复制并粘贴到 bash 文件中:
我试图运行它,同时适当地替换参数并得到这个错误:
从那以后,我尝试在不同的行上指定区域和区域,甚至更改了默认区域和区域。我什至尝试了谷歌自己的示例管道,但它们仍然导致相同的错误。我做错了什么还是我需要安装更多的东西才能让它工作?
awk - 通过 AWK 为指定列(VCF 文件)的值添加前缀
我正在使用具有大量列的制表符分隔文件(VCF 文件在此处输入链接描述)(下面是一个小示例)
在第一列(染色体名称)中,我有从 1 到 26 的数字(例如 1,2,...25,26)。我想为 1 到 9 的数字添加 HanXRQChr0 前缀,为 10 到 26 的数字添加 HanXRQChr 前缀。所有其他列中的值应保持不变。现在我尝试了一个sed
解决方案,但输出并不完全正确(最后一个管道不起作用):
如何做到这一点AWK
?我认为AWK
在我的情况下使用会更安全,直接更改文件的第一列。
google-cloud-platform - 在 GRCh38 全外显子序列上运行 DeepVariant
我正在尝试在我的 BAM 文件上运行 DeepVariant 以生成 VCF。我有以下问题:
1 - 对齐在 GRCh38 中,我应该使用哪个模型。我可以使用标准的全外显子组序列模型吗?('gs://deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard')
2 - 使用哪个 BED 文件来指定外显子组区域?有标准的吗?我在这里找到了一个我现在正在使用的(“CDS-cannonical.bed”): https ://github.com/AstraZeneca-NGS/reference_data/tree/master/hg38/bed
3 - 我使用的是 Verily GRCh38 基因组,谷歌基因组学上是否有标准的 GRCh38 比对。这是我拥有的:--ref gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa \
我的脚本设置如下,如果有意义,请告诉我:
编辑:
我尝试添加使用 samtools 生成的 .bam.bai 文件(bam 索引)
我仍然收到一个错误:
segmentation-fault - 修复 bcftools 中的分段错误错误
我正在尝试使用 bcftools 合并 3000 个细菌 bcf 文件。vcf 文件已使用 GATK 生成并转换为 bcf 并由 bcftools 索引。bcftools 继续分析 20% 的数据,但它一直过早终止并仅为部分变体生成合并的 bcf 文件(来自 2M 细菌基因组的高达 500kb)。我正在使用的代码是这样的:
输出错误是:
以前我对 400 个样本尝试了相同的命令,没有任何问题。
在线搜索,“当对变量的引用落在该变量所在的段之外,或者尝试写入只读段中的位置时,就会发生段错误”。该命令在为特定作业提供 80Gb 可用 RAM 的集群上运行。我不确定这个错误是由于 bcftools 软件本身的问题还是由于运行该命令的系统的限制?
这是用于复制错误的示例 bcf 文件 ( https://figshare.com/articles/BCF_file_segfault/7412864 )。该错误仅出现在大样本量中,因此我无法进一步减小样本量。
bash - 在bash中将循环的每次迭代的输出附加到相同的输出
我有 44 个文件(每个染色体 2 个)分为两种类型:.vcf 和 .filtered.vcf。我想wc -l
在一个循环中为它们中的每一个制作一个并将输出始终附加到同一个文件中。但是,我想在这个文件中有 3 列:chr[1-22] 、.vcfwc -l
和wc -l
.filtered.vcf。
我一直在尝试wc -l
对每个文件进行独立操作,并将每个染色体的 2 个输出按列粘贴在一起,但这显然不是很有效,因为我生成了很多不必要的文件。我正在为 22 对文件尝试此代码:
我希望只有一个包含三列的输出文件:
任何帮助将不胜感激,非常感谢您提前:)
r - 将 DNAstringsSet 解构为普通字符串
这来自一个名为 “VariantAnnotation”的 R 库及其依赖项“Biostrings”
我有一个 DNAstringsSetList,我想将其转换为普通列表或字符串向量。
但我不想要这种格式。我只想要碱基字符串,以便将它们作为列插入新数据框中。我要这个:
我用这个包方法完成了这个:
但是,它返回的行数比 tempo 多 10 行!这个结果和节奏的头尾是完全一样的,所以在中间的某个地方有10个额外的不应该形成的行(不是NAs)