问题标签 [bam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
320 浏览

bioinformatics - 将标签添加到 bioperl DB::SAM/BAM

我有一个 bam 文件并使用 bioperl (Bio::DB::Sam) 来处理它。现在我想问一下是否有可能在这个文件的对齐中添加标签?

我用

循环通过对齐的读取。现在我正在搜索类似的东西

再见

0 投票
1 回答
953 浏览

perl - Bio::DB::Sam - 获取 bam 文件中所有读取的映射数量

我想计算转录表达式,因此我需要获取 bam 文件中所有读取的映射数量。我目前的程序是使用 Bio::DB::Sam 获取整体转录本并获取映射到其上的读数。结果存储在以 read_name 作为键(10 个字母)和 number_of_mappings 作为值(整数)的哈希中。

这是我正在使用的代码:

我的问题:是否有任何其他可能性我可以直接获得每次读取的全局映射数量并且我不必查看所有成绩单?我在 Bio::DB::Sam 中找不到任何像 $sam -> getNumberOfMappings($read_name);

我正在使用具有超过 5000 万个映射读取的 bam 文件,因此哈希将需要大量内存资源(有时大约 40 GB)这实际上可能还是来自其他地方?还有其他方法可以用更少的内存来存储数据吗?

非常感谢!

0 投票
2 回答
801 浏览

database - Perl:为具有两列的选项卡文件创建索引

我有一个巨大的制表符分隔文件,其中包含多达 2 亿行(通常约为 2000 万)和两列:第一列包含一个最多 40 个字符的 ASCII 字,第二列包含一个整数。

我想做以下步骤:

  1. 按第一列排序
  2. 删除重复行以使所有行唯一
  3. 读出第一列中给定条目的所有行

我有 3 GB 的内存限制(因此将所有数据读入散列将不起作用),无限的硬盘空间并希望在单核上运行脚本。我打算并行运行几个脚本,所以对硬盘的读写操作不应该太高。

考虑到文件的大小,应该如何继续执行我的脚本(在 Perl 中)?

考虑到文件的大小,您建议第一步使用哪种算法?

第 3 步是我认为最复杂的部分。我该如何处理?我不熟悉索引算法。你能推荐一个最适合这个问题的吗?有没有我可以使用的 Perl 模块?

首先将文件转换为二进制文件是否有意义(例如将 SAM 转换为 BAM)?如果是,您是否有任何转换和处理此类文件的说明或算法?

0 投票
1 回答
1108 浏览

bioinformatics - Picard SamToFastq 仅提取一次读取,然后引发错误

我正在尝试从 bam 文件中提取一些 FastQ 文件。Picard 可以使用 SamToFastq 执行此操作,正如该工具的文档中所说,它接受 bam 或 sam 文件。

但是当我运行它时,它只提取一次读取,然后退出。这是错误消息。任何帮助表示赞赏。

0 投票
0 回答
213 浏览

c++ - SeqAn C++ 库:具有相同数据的 bam 与 sam 的不同 rID 值,bam 由于名称存储的长度而导致断言失败

我正在使用 seqan 1.4.1 来读取 sam/bam 文件。我有一个来自相同数据的 sam 和 bam 文件(与 rn5 refseq 基因对齐)。奇怪的是,当我与 ensembl 基因对齐时,我没有得到这个错误。

我正在读取 sam/bam 文件 BamStream,但如果我下拉到较低级别的 Stream 方法,则会发生同样的错误。

我打印 length(bamStreamIn._nameStore) 和读取的每个 record.rID。这是我使用数据的 bam 文件版本时的输出:

这是我使用 sam 文件时的输出:

有趣的是,名称存储大小相同,但 rID 不同。知道为什么 rID 不同以及导致断言错误的原因是什么?

0 投票
2 回答
2424 浏览

r - R中的子集SAM / BAM文件

我有一个包含大量读取的 BAM 文件。scanBam我可以使用from将它加载到 R 中Rsamtools

但是,我只需要读取的一个子集。我有一个character带有我感兴趣的 qnames 的向量。

scanBam返回一个包含 1 个元素的列表,该列表包含 13 个元素,其中包含所有数千次读取的数据。

如何通过qname保留结构来子集这个对象?我无法在手册或网上找到任何内容。

0 投票
2 回答
5257 浏览

bioinformatics - 从 .bim、.bed 和 .fam 文件创建 VCF

我有一个 .fam、.bed 和 .bim 文件,其中包含少数人的标记。我需要将其转换为 VCF 文件。

有人可以帮助创建一个 VCF 文件。有没有可以做到这一点的开源工具?

0 投票
0 回答
121 浏览

bioinformatics - 使用 .bed 或 .bam 进行峰值调用时 MACS2 的不同结果

我遇到了以下问题:我使用 MACS2 (2.1.0.20140616) 和以下简短命令行:

它似乎可以按我的意愿工作,但是当我通过 .bamfile 将 .bamfile 转换为 .bed 时

并在此使用 MACS2,我得到了更多的峰值。据我了解,.bed 文件应该包含与 .bam 文件相同的信息,所以这有点奇怪。

有什么建议有什么问题吗?

谢谢!

0 投票
0 回答
403 浏览

bioinformatics - 如何使用 htslib/samtools 转换 SAM/BAM 读取?

我正在使用该htslib库来读取 SAM/BAM 文件,它运行良好。我还可以将对齐写回新的 SAM/BAM 文件。

例如,以下代码打印比对的 DNA 序列:

问题:如何更改查询顺序?比如说,把第一个字母改成“T”?bam_get_seq返回一个读的序列,但是没有bam_set_seq函数?理想情况下,我正在寻找类似的东西:

如果我能弄清楚如何进行更新,我就知道如何将信息写入新的 SAM/BAM 文件。

0 投票
1 回答
130 浏览

bash - Bash 脚本在 1 个文件后停止

我正在尝试对目录中的所有 .bam 文件运行生物信息学命令行工具。这就是我正在使用的:

问题是循环在遍历第一个 bam 文件后停止。我最终会喜欢这个来检查一组 2000 个 .bam 文件,我不想手动输入它们(这将花费超过 30 小时)。