问题标签 [biopython]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1556 浏览

python - Biopython 的 calc_dihedral() 需要哪些原子来计算所有 3 个二面角?

我想计算残差中的所有三个二面角。

calc_dihedral(atom1, atom2, atom3, atom4)Biopython 需要四个原子的向量坐标作为参数,并返回单个值的输出。我不确定三个角度输出中的哪一个。

请建议残基中的哪些原子需要计算哪个角度以及原子坐标应以什么顺序在函数中作为参数给出。

0 投票
3 回答
1230 浏览

python - 我不明白如何为要在 python 中打开的文件指定路径

我是 Python 的新用户,我尝试导入 genbank 和 fasta 格式文件。在他们的文档中,他们提供了一个示例来说明我们如何将数据集导入 Python。具体来说,他们在第 16 页的 Biopython 教程和食谱中提供了以下示例:

现在,他们在第 14 页提到 Biopython 源代码包含这个文件,这是真的。但是,python如何通过Bio import SeqIO知道文件到底在哪里呢?请注意,我在安装 biopython 及其组件后尝试了上面的代码,但它从来没有工作过?

另外,我可以指定 genbank 文件的路径并以某种方式打开它!

谢谢

0 投票
1 回答
2211 浏览

python - 在 Python 中从 FASTA 制作 Blast 数据库

我怎样才能做到这一点?我使用 Biopython 并且已经看过手册。当然,我可以在独立的 NCBI BLAST+ 中使用“makeblastdb”从 FASTA 制作blastdb,但我想在一个程序中完成整个过程。

似乎有两种可能的解决方案。

  1. 找到执行这项工作的功能。

    我找不到这个。我已经度过了一整天。

  2. 在 python 中运行“makeblastdb”。

    我在我的 python shell 中输入 os.system("C:\blast-2.2.25+\bin\makeblastdb.exe") ,但我无法提供任何参数。

我该如何解决这个问题?谢谢你的帮助。

0 投票
1 回答
208 浏览

python - 如何修改GenBank记录的序列?

我想做的是在基因组文件中以小写形式制作 GenBank 记录的所有非推定序列。

到目前为止,我设法获得了 gbk 中蛋白质的开始和结束位置。从那里我执行以下操作:

现在我有了基因组中序列的开始和结束位置。但是如何修改基因组文件呢?gb_record.seq[start:end].lower()或类似的东西没有成功。

当我分配时,当gb_record.seq = gb_record.seq[start:end].lower我替换基因组文件时,它显然出错了。有任何想法吗?

0 投票
3 回答
999 浏览

python - Biopython(或一般的 Python):使用 gi 标识符从大型 .fasta 文件中解析物种名称的最有效方法

我有一个大约 145000 个条目的 .fasta 文件(基本上是 .txt),其格式如下

  1. 我有一个 gi 的列表(| 之后列出的第一个数字)。
  2. 对于给定的测试,此列表的大小在 60 - 600 gi 之间变化
  3. 我想返回一个包含这些 gi 各自物种的列表
  4. 物种名称通常在第一个示例中看到(用方括号 [Mus musculus] 括起来)并不总是存在。
  5. 顺序不是特别重要。

我一直在使用各种 BioPython 解析点点滴滴,但我认为由于搜索的大小它失败了。我希望这里有人知道更有效的方法?

提前致谢!

0 投票
1 回答
2708 浏览

alignment - 爆炸两个来自 python 脚本的序列

我有一个蛋白质对列表,我想将“BLAST Two Sequences”的速度和准确性与 Smith-Waterman 程序进行比对。我知道 NCBI 网站上有一个“Blast Two Sequences”选项,但我想从 python 脚本运行它。也许 Biopython 有这个能力?如果我不能使用 Blast Two Sequences,我将比较 Smith-Waterman 的不同版本,但这不会那么令人兴奋 :) 或者,如果有人对涉及比较蛋白质对的生物信息学大四项目有其他想法,请不要犹豫,让我知道!提前谢谢你。

0 投票
1 回答
324 浏览

parsing - 这是有效的 Genbank 功能描述还是 Biopython 错误?

我偶然发现了一个 Genbank 格式的文件(此处显示为一个最小的虚拟示例),其中包含如下嵌套功能:

这样的功能使当前的 Biopython Genbank 解析器(1.59 版本)崩溃,但在以前的版本(例如 1.55)中显然没有。显然这种行为已经在 1.57 中(见下面的评论)。

从 Biopython bugtracker 看来,旧的 locationparser 代码似乎在 1.56 中被删除:

从我可以从ftp://ftp.ncbi.nih.gov/genbank/gbrel.txthttp://www.insdc.org/documents/feature_table.html#3.4.2上的格式描述中推断出,这是最可能无效。(但请参阅下面的评论)。

有人可以对此发表评论。即这是 Biopython 中的故障还是 Genbank 文件的格式?

完整的演示文件:

显示错误的最小演示程序(假设安装了 Biopython 1.59 和 Python 2.7,并且上述文件以“test.gb”的形式提供:

这崩溃了

0 投票
3 回答
997 浏览

python-3.x - 如何从 fasta 文件中读取 biopython 序列并将它们分配为 RNAfold 的输入以进行结构预测?

我需要一个程序从fasta文件(大约1000个序列)中读取每个序列,并将每个序列用作另一个应用程序(RNAfold)的输入以进行二级结构预测。我正在使用python。可能吗?有人可以给我一个指导代码吗?

@Lennart 我已将代码修改为以下代码:

$

并且得到以下与 RNAfold 输出无关的输出:我的代码有什么问题?

0 投票
2 回答
215 浏览

python - ppmap/parallel python 中是否存在隐藏的可能死锁?

我在使用 map 的并行版本(ppmap包装器,由 Kirk Strauser 实现)时遇到了一些麻烦。

我试图并行运行的函数对大量字符串(蛋白质序列)运行简单的正则表达式搜索,这些字符串是使用 BioPython 的 SeqIO 从文件系统中解析的。每个函数调用都使用自己的文件。

如果我使用法线贴图运行该函数,一切都会按预期工作。然而,当使用 ppmap 时,一些运行简单的冻结,没有 CPU 使用,主程序甚至没有对 KeyboardInterrupt 做出反应。此外,当我查看正在运行的进程时,工作人员仍然在那里(但不再使用任何 CPU)。

例如

此外,工作人员似乎没有冻结任何特定的数据输入 - 如果我手动终止进程并重新运行执行,它会在不同的点停止。(所以我暂时采取了保留已完成条目的列表并多次重新启动程序)。

有什么办法可以看出问题出在哪里?

我正在运行的代码示例:

如果我使用简单的地图而不是 ppmap,一切正常:

0 投票
2 回答
318 浏览

indentation - Biopython 缩进错误

我已经涉足 biopython 大约一年了,最近我升级到了 Biopython 1.59 版。我一直在通过一些教程来更新我的技能,但是当我运行 for 循环和 biopython 库中的任何模块时,我总是得到以下错误:

当我从命令行终端调用以 Komodo Edit 版本 7.0.2 编写的 .py 文件时,我只会收到此错误:

当我使用命令行调用我一年前编写的旧 .py 文件时,它们运行良好。当我直接启动 python 并逐行输入教程示例时,它工作正常:

如何修复我的 .py 文件以便我可以从终端运行它?

任何对此问题的见解将不胜感激!

普里亚