问题标签 [pysam]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
423 浏览

python-2.7 - python2.7升级python包

我是 python 新手。我需要在 python2.7 中运行一个 python 脚本(riboplot),它需要运行包“pysam_0.8.4”。在我的python2.7中,当我检查版本时

它向我展示了'0.7.5'。但在我的 python3.4 中,它显示'0.8.4'. 我如何设置 python2.7 以使用pysam0.8.4运行脚本。请指导我。提前致谢

0 投票
1 回答
715 浏览

python - 使用 pysam 提供的类属性在 Spark 中过滤 RDD

我正在使用pysamPython 库来读取 Spark 中的 BAM 文件。我创建了一个包含“BAM”数据的 RDD。当我尝试使用类(pysam 库)filter的属性来处理数据时,火花会崩溃。运行和工作正常。我对 Spark 很陌生。query_sequenceAlignedSegmentdata.count()data.first()

这是我的代码:

我得到以下输出:

0 投票
2 回答
691 浏览

python - 有没有办法使用 Samtools 将整个“对齐字段/列”保存到 NumPy 数组中?

在SAM格式中,每条对齐线代表一个段的线性对齐,每条线有11个必填字段,即QNAME、FLAG、RNAME、POS、MAPQ等。

假设我想要一个给定 BAM 文件中所有“QNAMES”的 NumPy 数组。或者,可以采用几列并将它们导入 Pandas Dataframe。

pysam 可以实现此功能吗?

人们可以很自然地用 来打开给定的 BAM 文件,pysam.AlignmentFile()然后用 来访问各个段pysam.AlignmentSegment(),例如

但是,您可以将所有 QNAMES 保存到 NumPy 数组中吗?

0 投票
0 回答
272 浏览

python - 关于pysam安装的问题

是linux,使用conda安装pysam,pip install pysam一直失败。成功安装 pysam 后,pysam 显示conda list并出现,anaconda2/pkgs/ 但是import pysam在 python 2.7.12 中,它失败了Traceback (most recent call last): File "<stdin>", line 1, in <module> ImportError: No module named pysam

请帮忙。

0 投票
1 回答
1736 浏览

python - BAM 文件:使用 pysam 获取特定位置的所有读取

我有一个 BAM 文件,在某个位置读取 520817(如 IGV 所示)。但是,当我使用 pysam 获取特定位置上的读取名称和相关核苷酸时,到目前为止我没有得到那个数量(仅获得大约 7000 个读取)。我认为只有当该位置上的核苷酸与参考基因组不同时,我才会得到读数。有没有解决方法,所以我得到了所有的读数?我从生物信息学开始......所以请让我知道你需要什么来帮助我!

非常感谢!

这是我的代码:

0 投票
2 回答
3463 浏览

python - 不断报错 库版本不兼容 libchtslib.so 需要 9.0.0 或更高版本,但 libcurl.4.dylib 提供 7.0.0 版本

我正在尝试安装一个名为 metaBIT 的程序。我能够将它添加到我的 PATH 中。但是当我执行时:

它出错并给了我这个:

我已经使用谷歌搜索尝试了关于这个错误的所有可用建议。

我试图卸载并重新安装 pysam。

我仍然得到同样的错误。请帮忙!

0 投票
1 回答
1084 浏览

python - 多进程,不同进程读取同一个文件

我正在尝试模拟一些 dna 测序读取,并且为了加快代码速度,我需要并行运行它。

基本上,我想做的是以下几点:我正在从人类基因组中采样读取,我认为来自多处理模块的两个进程之一试图从同一个文件(人类基因组)中获取数据,这些进程被破坏并且它无法获得所需的 DNA 序列。我尝试了不同的东西,但我对并行编程很陌生,我无法解决我的问题

当我用一个核心运行脚本时,它工作正常。

这是我调用函数的方式

这是我用来读取的函数,每个进程将数据写入不同的文件。

这是回溯:

0 投票
2 回答
339 浏览

bioinformatics - 从 CIGAR 字符串中检测大量删除

我是序列分析的新手,我正在做一些练习来帮助我学习使用 pysam 和 samtools 进行 WGS 数据分析。我想做的一件事是从二维牛津纳米孔数据(大读数)中检测(相当大的)缺失。为此,我从大肠杆菌基因组中提取了前 10kb 以及覆盖该区域的测序读数。调用原始基因组 A。然后我通过在 A 的中间插入 1kb 序列来创建基因组 A',并使用 A' 作为参考来对齐 A 的读取以模仿序列中的删除。我现在想编写一个程序来检测我的“删除”的位置。我的问题是我读取的 CIGAR 字符串不符合我的期望,我认为这一定是错误的。

假设我有一个序列 ....GTTGCA ---1kb 删除--- GAACGT... 并且读取与该序列对齐。我做出以下假设:

案例 1. 删除左侧且不与删除重叠的读取可以以 aHbS(a 和 b 为常数,a,b >=0)开始,后跟一系列 Ms、Is、Ds,然后以 cSdH 结束。我不希望在这些读取中找到大段 Is 和 Ds。

案例 2. 从左侧部分与删除重叠的读取应与 (1) 中的读取相同,但应以 rS 结尾,常数 r 的大小取决于读取与删除重叠的程度。

案例 3. 读取与删除完全重叠(请记住,我有很长的读取,所以存在这样的读取)应该与 (1) 中的读取相同,但我希望在我的 CIGAR 字符串中看到 1000D 或类似的东西,然后读取应与 (1) 中的读取相同。这是我在数据中没有观察到的。我的“删除”从 5kb 开始,但具有 4500 < POS < 5000 且长度超过 2kb 的读取实际上似乎包含相同的 Ms、Is 和 Ds 序列,就好像它们与参考对齐一样。

我的问题,我希望不是离题,因为我宁愿询问数据格式而不是实际编程,是 i)。我上面的哪个假设是错误的 ii)。读取部分重叠删除的雪茄串应该是什么样子?三)。读取完全重叠的雪茄串(也就是说,其末端映射在删除的任一侧)删除看起来像什么?

我附上了一个图,希望能帮助说明我的三个案例。

在此处输入图像描述

0 投票
1 回答
186 浏览

python - Python 成对使用迭代器

我试图在pysam 模块的上下文中理解 Python 的迭代器。通过fetch在所谓的 AlignmentFile 类上使用该方法,可以获得一个iter由文件中的记录组成的适当迭代器file。我可以使用各种方法来访问每条记录(可迭代),例如名称query_name

碰巧记录是成对出现的,所以人们会喜欢这样的东西:

对于数百万条记录,调用next () 可能不是正确的方法,但是如何使用 for 循环在成对的迭代中使用相同的迭代器。我查看了itertools中的 grouper recipe 和 SOs Iterate an iterator by chunks (of n) in Python?[重复](甚至是重复的!)以及以块为单位迭代列表的最“pythonic”方式是什么?但无法让它工作。

0 投票
2 回答
175 浏览

python-3.x - Python - 无法安装 HTSEq

我无法在 python 3.6.1 中安装 HTSeq。

当我尝试安装时,它给了我这个错误: