问题标签 [bam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
29 浏览

ls - snakemake 中的命令行

我想使用以下命令行在文件夹中创建 BAM 文件列表:

但是,我想把它集成到snakemake中。这个怎么做?这是我尝试过的,但不起作用:

输出 bam_list 如下所示:

0 投票
1 回答
168 浏览

snakemake - 运行多个snakemake规则

我想使用snakemake一个接一个地运行多个规则。但是,当我运行这个脚本时,bam_list 规则出现在 samtools_markdup 规则之前,并给我一个错误,它找不到输入文件,这些文件显然还没有生成。如何解决这个问题呢?

0 投票
1 回答
169 浏览

shell - 将多个 BAM 文件转换为 BED 文件

我在外部硬盘驱动器中有 BAM 文件。想把它们变成 BED。我正在使用

它在目录中写入 BED 文件,但它们都是空的。我的 BEDtools 安装在

有人可以告诉我哪里出错了吗?问候。

0 投票
1 回答
108 浏览

bash - 从与另一个大文件的行匹配的大文件中查找并提取一行

我允许自己创建一个新问题,因为与我在 bash 脚本优化中的第一个问题相比,一些参数发生了巨大变化(优化我的脚本,它查找到一个大的压缩文件

简而言之:我想查找并提取文件(1)(bam 文件)第一列的变量与文本文件(2)的第一列匹配的所有行。对于生物信息学家来说,它实际上是从两个文件中提取匹配的读取 id。文件1是二进制压缩的130GB文件文件2是10亿行的tsv文件

最近一个用户带来了一个非常优雅的单行器,它结合了文件的解压和使用 awk 的查找,它运行得非常好。随着文件的大小,它现在要查找 200 多个小时(多线程)。

  1. 这个“问题”在算法中有名称吗?
  2. 什么是应对这一挑战的好方法?(如果可能,使用简单的解决方案,例如 sed、awk、bash ..)

十分感谢

编辑:对不起代码,因为它在链接上,我虽然它是一个“doublon”。这是使用的一种衬里:

0 投票
1 回答
108 浏览

r - 尝试在没有来自 bam() 输出的随机影响的情况下进行预测时出错

我有一个数据集,我正试图与 mgcv 包中的 bam() 匹配。该模型具有二元结果,我需要为每个动物 ID 指定随机截距。下面是数据的一个子集(我的实际数据要大得多,协变量更多):

我想拟合模型并预测没有随机效应的新数据:

但这会引发错误:

Animal_id当我明确告诉它从预测中排除该术语时,为什么需要它?这也特别奇怪,因为我可以在?random.effects mgcv帮助文件中运行类似的示例,没问题,即使我将这些示例修改为使用 bam() 而不是 gam()!任何帮助将不胜感激!

编辑

我可能找到了解决办法;显然,如果discrete=TRUEbam()模型中使用,那么predict.bam()也使用discrete=TRUEwhich 将无法使用缺少随机效应,但这有效:

输出:

0 投票
1 回答
416 浏览

input - 多个输出到单个列表输入 - 在 Nextflow 中合并 BAM 文件

我正在尝试将通过一次执行多个对齐生成的x个 bam 文件(对y个 fastq 文件的批次)合并到 Nextflow 中的一个 bam 文件中。

到目前为止,在执行对齐和排序/索引生成的 bam 文件时,我有以下内容:

${batchFastq}.bam包含一批y个 fastq 文件的 bam 文件在哪里。

此管道完成得很好,但是,当尝试samtools merge在另一个进程 (samToolsMerge) 中对这些 bam 文件执行时,该进程在每次运行对齐时运行(在本例中为 4),而不是为收集的所有 bam 文件运行一次:

输出为:

如何仅从生成的 bam 文件中获取miniMap2Bam并运行它们samToolsMerge一次,而不是多次运行该进程?

提前致谢!

编辑:感谢 Pallie 在下面的评论中,问题是将先前进程中的 runString 和 dirString 值输入 miniMap2Bam,然后输入 samToolsMerge,导致每次传递值时该过程都会重复。

解决方案就像从 miniMap2Bam 中删除 vals 一样简单(如下):

0 投票
0 回答
25 浏览

alignment - 对 bam 文件进行二次采样以仅包含长度超过 X 的读取

我有多个 .bam 文件(与 bwa 对齐),我想生成一个子集 .bam 文件,其中仅包含 50bp 以上的读取(读取长度,而不是对齐长度)。有没有办法从 bam 文件中做到这一点?或者我应该回去对fastq进行子集化,然后重新对齐?

0 投票
0 回答
65 浏览

mgcv - R mgcv:具有缺失值的 bam 自相关

我有一个实验的数据。参与者对一些项目做出了回应,我想根据一些措施来预测响应时间。试用t中的响应时间与 中的响应时间相关t-1。我的bam-model ( mgcv-package) 如下所示:

在实验中,提出了目标和干扰物。我只想分析目标。在lmer中,我会删除带有干扰项的行dat <- dat[dat$type == 'target',]。在目前的情况下,恐怕这不合适,因为bam不知道连续的行不再代表连续的试验,对吧?那么,在估计固定和随机效应时不包括干扰项,而仅用于估计自相关的最佳做法是什么?

0 投票
0 回答
53 浏览

dynamic - 使用 snakemake 中的动态输出拆分 BAM 文件

我正在尝试使用 Snakemake 规则来拆分和处理大 bam 文件。在 splitBam 规则中,我将 Bam 拆分为我尝试在 Count 规则中使用的动态输出。当我尝试这些时,我得到了错误:

有没有迭代输入列表的解决方案?谢谢!

0 投票
0 回答
262 浏览

python - 使用 Python 从 BAM 文件和 vcf 文件中提取具有不同位置的读取和配对(PYSAM 和 PYSAM,也可以使用 bamnostics)

我正在使用 Python 并使用 PYSAM 和 PyVCF 库进行数据处理。嗨,假设我有一个 bam 文件和一个包含变体调用结果的 vcf 文件。我想提取其中有变体的读取和配对。假设 mate 中的 read 和 variant 有一个变体,我想提取这些 reads 并丢弃所有没有变体位置的 reads 或者它们的 mate 没有变体(即使 reads 有变体但 mate 没有变体)。之后,我想计算从结果中生成的其他 read_mate 模式的计数。

完整问题:我们必须使用 VCF 文件搜索 bam 文件,如果 vcf 文件上的位置与 bam 文件中的读取匹配,则检查是否在同一位置上是否存在与 vcf 相同的 alt,如果两者相同则考虑一下并保存并继续前进。在处理完基因的所有数据之后,(逐个基因),我们将保存所有那些在其中具有 vcf 位置的读取和配对。具有vcf位置的读取和配对将在一个变量中逐个基因保存,信息应保存如下:最初是一个带有基因名称的输出文件,contig name : <position,alt base>, <Position,alt base> 等等每次阅读和配对。下一步在保存那些reads和只有vcf位置的mates的信息后,注意:(丢弃那些mates没有vcf位置的reads),下一步是计算read support,

下一步:合并基本模式和噪音:例如,我们有以下模式 pos alt pos alt pos alt post alt pos alt pos alt pos alt(读取,配对模式):55 G 58 C 63 G 75 T 87 A 87 T 95 A(读数,配对模式):C 63 G 75 T 87 A 87 T 95 A(读数,配对模式):55 G 58 C 63 G 75
(读数,配对模式):55 G 58 C 63 G 75 T 87 A 87 T 95 A

现在所有这些模式应该合并成一个更大的模式:pos alt pos alt pos alt post alt pos alt pos alt(过滤模式):55 G 58 C 63 G 75 T 87 A 87 T 95 A

底线:我只想获得这些读取和具有 vcf 位置的配对,并为每个读取及其具有 vcf 位置的配对制作一个模式。并丢弃所有其他没有 vcf 位置的人。

我在映射中遇到了一些问题,不知道如何使用雪茄串来映射我的数据并在与 vcf 位置匹配后将 DNA 序列与其进行比较以检查它是否具有碱基。任何帮助将不胜感激。

我尝试了以下代码:

依此类推,长代码但不是所需的输出。谢谢