问题标签 [samtools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 从指定长度的 BAM/SAM 文件中提取读取
我对 Perl 有点陌生,并希望使用它来从我的 BAM(对齐)文件中提取特定长度的读取。
BAM 文件包含长度为 19 到 29 nt 的读取。这是前 2 次读取的示例:
我只想提取那些长度为 21 nt 的内容。
我尝试使用以下代码执行此操作:
但是,该程序没有给出任何结果......有人可以建议这样做的正确方法吗?
windows - 使用 mingw32-make 安装 RSEM 时,MinGW 找不到我安装的 zlib.h 和 zlib 文件
我已经寻找了几个小时,似乎无法找到我的问题的答案。我已经使用来自 zlib.net 的源代码安装了 zlib,mingw32-make -fwin32/Makefile.gcc && mingw32-make install -fwin32/Makefile.gcc
就像它在 Makefile.gcc 文件中所说的那样,并尝试通过安装mingw-get install zlib
,mingw-get install zlib-dev
并且正确的文件进入编译文件夹:
但是后来我尝试通过编译 RSEM 版本 1.3.1 mingw32-make
,由于某种原因,当 zlib.h 文件实际上位于文件夹中时,mingw 无法找到它C:\MinGW\include
。我的 MinGW 在哪里可以构建机器路径?
这是我的结果:
regex - 从字符串中间删除字符
我有一个带有 RX: 字段的 SAM 文件,其中包含 12 个碱基,中间用-
ie分隔RX:Z:CTGTGC-TCGTAA
我想从此字段中删除连字符,但我不能简单地从整个文件中删除所有连字符,因为读取名称包含它们,例如1713704_EP0004-T
大部分时间都在尝试tr,
,但这只是从文件中删除所有连字符。:
输入是一个大于 10,000,000 行的大型 SAM 文件,如下所示:
期望的输出(即最后一个字段)
我该如何解决这个问题?
openacc - 将 OpenACC 与已编译的 C 程序一起使用
我正在尝试通过在适用的 for 循环中插入 pragma 来使用 OpenACC 来加速 Samtools 包。
我收到以下错误消息:
我检查了,该文件与该config.h
文件位于同一目录中stats.c
。所以我不确定如何解决这个错误,以便我可以 GPU 加速 samtools。
在将编译指示添加到 stats.c 程序后,我也尝试安装 samtools,但我没有看到加速方面的差异。我还检查了运行期间是否使用了 GPU,例如,当我使用 samtools sort 并且似乎没有使用 GPU 时。
grep - 如何拆分双端fastq文件?
我在一个 .fastq 文件中包含 Illumina 双端读取,表示正向读取的“/1”和反向读取的“/2”。
我正在使用 grep 提取单个读取并将它们放入 2 个各自的文件中(一个用于正向读取,一个用于反向读取。
但是,当我尝试使用文件(fastqc、程序集等)时,它们不起作用。运行 fastqc 时出现以下错误:
但是,如果您查看文件,它们的标识符确实以“@”开头。关于为什么这些文件不起作用的任何建议?我最初将 .bam 文件转换为 .fastq 文件
以下是每个单独文件的示例:
- 合并.fastq
- 被拉出并放入自己的 .fastq 文件后的正向读取示例:
任何意见,将不胜感激。谢谢!
shell - 在一个 slurm 脚本中运行同时任务,然后运行单个任务
我需要一个 Slurm 脚本来执行以下操作:
- 在暂存空间中创建一个目录用于临时存储(使用 sbatch --gres disk:1024 请求)
- 对数百个 bam 文件运行 samtools sort 并将排序后的副本存储在暂存空间中(一次尽可能多)
- 排序后,对暂存空间中的排序文件运行 samtools index(一次尽可能多)
- 建立索引后,使用所有排序/索引的 bam 文件运行单个(大型)任务(CPU 越多越好)
- 将需要的文件复制回主存储系统并删除剩余文件(包括排序的 bam 和索引文件)
使用基本作业数组似乎不起作用,因为它抛弃了只需要执行一次的步骤。最后的单个任务说文件不存在所以我猜脚本正在超越自己并在其他人完成之前删除所有内容(可能运行 rm 与使用数组一样多次),所以尝试其他的东西。
以下脚本给了我来自 samtools 的错误,说在尝试创建排序的 bam 文件时没有这样的文件或目录。
如果我将 --nodes 降为 1,samtools sort 工作正常,但是它只按顺序运行,并且在大约 50 个文件之后它会向前跳,运行第 2 部分关于那里有哪些文件,最后的单个任务找不到其余文件(使用少于 30 个文件时可以正常工作)。
关于如何正确执行此操作的任何帮助都会很棒。当空间可用于第 1 部分和第 2 部分时,我希望在所有节点上安装尽可能多的任务。第 3 部分需要在一个节点上,但从许多 CPU 中受益匪浅,因此提供更多的 CPU 比它之前的小型并行任务(如果这意味着同时执行更多任务,则可以使用更少的 CPU)。请记住,我确实需要在一个过程中完成这一切,因为出于各种原因需要暂存空间。
linux - 如何安装 ncurses-devel 以使 samtools 工作?
我在没有 root 访问权限的 HPC 上,我无法使用 sudo命令,但我正在尝试让 samtools-1.10 工作,不幸的是我收到了错误消息:
于是我下载了ncurses-6.1.tar.gz,解压后使用
samtools 仍然给我错误
有什么建议吗?我是否在错误的地方安装了 ncurses?还是我特别需要 libncurses5-dev?
duplicates - SAM(序列对齐/映射)格式对齐标签
我正在使用 samtools 删除重复项。要标记然后删除重复项,markdup 依赖于 fixmates 提供的 ms(伴侣分数)和 MC(伴侣雪茄)标签。
有谁知道这些标签到底是什么?固定伴侣的表现如何?
谢谢您的帮助!
bioinformatics - 推荐用于阅读和操作 BAM 和 VCF 文件的语言?
我通常是 C# / .net 开发人员,但一个新项目将使用下一代测序 BAM 和 VCF 文件。我需要阅读这些文件,进行一些更改,然后保存它们。据我所知,现有的.net 库用于处理这些文件的方式并不多。
该领域通常使用哪些编程语言,并且有支持这些文件的库?
alignment - 使用 bwa 的未映射读取
我正在尝试使用 BWA MEM 来对齐一些 WGS 文件,但我注意到一些奇怪的东西。当我过去samtools flagstat
检查这些 .bam 文件时,我注意到大多数读取都未映射。
以前,我曾经Samtofastq
将我的 .bam 文件转换为 .fastq。当我头这个文件时,显示如下:
这些字符 (<.@;:) 是正常的并且会影响 bwa 的对齐方式吗?
这是我的 bwa 代码:
和我的 samtofastq 代码
几个小时后,我就陷入了困境。提前致谢!
更新:
我只是在 bwa mem 对齐期间注意到一个标志