“bam”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

29 浏览

ls - snakemake 中的命令行

我想使用以下命令行在文件夹中创建 BAM 文件列表：

但是，我想把它集成到snakemake中。这个怎么做？这是我尝试过的，但不起作用：

输出 bam_list 如下所示：

ls snakemake bam

2020-10-20T08:27:25.520

0 投票

1 回答

168 浏览

snakemake - 运行多个snakemake规则

我想使用snakemake一个接一个地运行多个规则。但是，当我运行这个脚本时，bam_list 规则出现在 samtools_markdup 规则之前，并给我一个错误，它找不到输入文件，这些文件显然还没有生成。如何解决这个问题呢？

snakemake bam

2020-10-20T14:44:13.067

0 投票

1 回答

169 浏览

shell - 将多个 BAM 文件转换为 BED 文件

我在外部硬盘驱动器中有 BAM 文件。想把它们变成 BED。我正在使用

它在目录中写入 BED 文件，但它们都是空的。我的 BEDtools 安装在

有人可以告诉我哪里出错了吗？问候。

shell bioinformatics bam bedtools

2020-11-16T14:58:08.447

0 投票

1 回答

108 浏览

bash - 从与另一个大文件的行匹配的大文件中查找并提取一行

我允许自己创建一个新问题，因为与我在 bash 脚本优化中的第一个问题相比，一些参数发生了巨大变化（优化我的脚本，它查找到一个大的压缩文件）

简而言之：我想查找并提取文件（1）（bam 文件）第一列的变量与文本文件（2）的第一列匹配的所有行。对于生物信息学家来说，它实际上是从两个文件中提取匹配的读取 id。文件1是二进制压缩的130GB文件文件2是10亿行的tsv文件

最近一个用户带来了一个非常优雅的单行器，它结合了文件的解压和使用 awk 的查找，它运行得非常好。随着文件的大小，它现在要查找 200 多个小时（多线程）。

这个“问题”在算法中有名称吗？
什么是应对这一挑战的好方法？（如果可能，使用简单的解决方案，例如 sed、awk、bash ..）

十分感谢

编辑：对不起代码，因为它在链接上，我虽然它是一个“doublon”。这是使用的一种衬里：

bash algorithm awk sed bam

2020-12-14T21:40:56.967

0 投票

1 回答

108 浏览

r - 尝试在没有来自 bam() 输出的随机影响的情况下进行预测时出错

我有一个数据集，我正试图与 mgcv 包中的 bam() 匹配。该模型具有二元结果，我需要为每个动物 ID 指定随机截距。下面是数据的一个子集（我的实际数据要大得多，协变量更多）：

我想拟合模型并预测没有随机效应的新数据：

但这会引发错误：

Animal_id当我明确告诉它从预测中排除该术语时，为什么需要它？这也特别奇怪，因为我可以在?random.effects mgcv帮助文件中运行类似的示例，没问题，即使我将这些示例修改为使用 bam() 而不是 gam()！任何帮助将不胜感激！

编辑

我可能找到了解决办法；显然，如果discrete=TRUE在bam()模型中使用，那么predict.bam()也使用discrete=TRUEwhich 将无法使用缺少随机效应，但这有效：

输出：

r predict mgcv bam

2020-12-22T21:56:56.767

0 投票

1 回答

416 浏览

input - 多个输出到单个列表输入 - 在 Nextflow 中合并 BAM 文件

我正在尝试将通过一次执行多个对齐生成的x个 bam 文件（对y个 fastq 文件的批次）合并到 Nextflow 中的一个 bam 文件中。

到目前为止，在执行对齐和排序/索引生成的 bam 文件时，我有以下内容：

${batchFastq}.bam包含一批y个 fastq 文件的 bam 文件在哪里。

此管道完成得很好，但是，当尝试samtools merge在另一个进程 (samToolsMerge) 中对这些 bam 文件执行时，该进程在每次运行对齐时运行（在本例中为 4），而不是为收集的所有 bam 文件运行一次：

输出为：

如何仅从生成的 bam 文件中获取miniMap2Bam并运行它们samToolsMerge一次，而不是多次运行该进程？

提前致谢！

编辑：感谢 Pallie 在下面的评论中，问题是将先前进程中的 runString 和 dirString 值输入 miniMap2Bam，然后输入 samToolsMerge，导致每次传递值时该过程都会重复。

解决方案就像从 miniMap2Bam 中删除 vals 一样简单（如下）：

input merge samtools nextflow bam

2021-03-04T13:20:34.770

0 投票

0 回答

25 浏览

alignment - 对 bam 文件进行二次采样以仅包含长度超过 X 的读取

我有多个 .bam 文件（与 bwa 对齐），我想生成一个子集 .bam 文件，其中仅包含 50bp 以上的读取（读取长度，而不是对齐长度）。有没有办法从 bam 文件中做到这一点？或者我应该回去对fastq进行子集化，然后重新对齐？

alignment subset bam

2021-03-25T22:07:48.027

0 投票

0 回答

65 浏览

mgcv - R mgcv：具有缺失值的 bam 自相关

我有一个实验的数据。参与者对一些项目做出了回应，我想根据一些措施来预测响应时间。试用t中的响应时间与中的响应时间相关t-1。我的bam-model ( mgcv-package) 如下所示：

在实验中，提出了目标和干扰物。我只想分析目标。在lmer中，我会删除带有干扰项的行dat <- dat[dat$type == 'target',]。在目前的情况下，恐怕这不合适，因为bam不知道连续的行不再代表连续的试验，对吧？那么，在估计固定和随机效应时不包括干扰项，而仅用于估计自相关的最佳做法是什么？

mgcv autocorrelation bam

2021-04-13T10:41:47.243

0 投票

0 回答

53 浏览

dynamic - 使用 snakemake 中的动态输出拆分 BAM 文件

我正在尝试使用 Snakemake 规则来拆分和处理大 bam 文件。在 splitBam 规则中，我将 Bam 拆分为我尝试在 Count 规则中使用的动态输出。当我尝试这些时，我得到了错误：

有没有迭代输入列表的解决方案？谢谢！

dynamic snakemake bam

2021-05-01T18:33:44.333

0 投票

0 回答

262 浏览

python - 使用 Python 从 BAM 文件和 vcf 文件中提取具有不同位置的读取和配对（PYSAM 和 PYSAM，也可以使用 bamnostics）

我正在使用 Python 并使用 PYSAM 和 PyVCF 库进行数据处理。嗨，假设我有一个 bam 文件和一个包含变体调用结果的 vcf 文件。我想提取其中有变体的读取和配对。假设 mate 中的 read 和 variant 有一个变体，我想提取这些 reads 并丢弃所有没有变体位置的 reads 或者它们的 mate 没有变体（即使 reads 有变体但 mate 没有变体）。之后，我想计算从结果中生成的其他 read_mate 模式的计数。

完整问题：我们必须使用 VCF 文件搜索 bam 文件，如果 vcf 文件上的位置与 bam 文件中的读取匹配，则检查是否在同一位置上是否存在与 vcf 相同的 alt，如果两者相同则考虑一下并保存并继续前进。在处理完基因的所有数据之后，（逐个基因），我们将保存所有那些在其中具有 vcf 位置的读取和配对。具有vcf位置的读取和配对将在一个变量中逐个基因保存，信息应保存如下：最初是一个带有基因名称的输出文件，contig name : <position,alt base>, <Position,alt base> 等等每次阅读和配对。下一步在保存那些reads和只有vcf位置的mates的信息后，注意：（丢弃那些mates没有vcf位置的reads），下一步是计算read support，

下一步：合并基本模式和噪音：例如，我们有以下模式 pos alt pos alt pos alt post alt pos alt pos alt pos alt（读取，配对模式）：55 G 58 C 63 G 75 T 87 A 87 T 95 A（读数，配对模式）：C 63 G 75 T 87 A 87 T 95 A（读数，配对模式）：55 G 58 C 63 G 75
（读数，配对模式）：55 G 58 C 63 G 75 T 87 A 87 T 95 A

现在所有这些模式应该合并成一个更大的模式：pos alt pos alt pos alt post alt pos alt pos alt（过滤模式）：55 G 58 C 63 G 75 T 87 A 87 T 95 A

底线：我只想获得这些读取和具有 vcf 位置的配对，并为每个读取及其具有 vcf 位置的配对制作一个模式。并丢弃所有其他没有 vcf 位置的人。

我在映射中遇到了一些问题，不知道如何使用雪茄串来映射我的数据并在与 vcf 位置匹配后将 DNA 序列与其进行比较以检查它是否具有碱基。任何帮助将不胜感激。

我尝试了以下代码：

依此类推，长代码但不是所需的输出。谢谢

python bioinformatics pysam bam

2021-05-11T23:00:52.613

问题标签 [bam]

Reference