问题标签 [biopython]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1513 浏览

python - Biopython 是否支持 Python 3.2?

Biopython 的网站提到它需要 Python 到 2.7 版本,但没有明确说明是否存在 Python 3+ 支持。

有没有办法在 Python 3.2 中使用 Biopython?

请参阅:http ://biopython.org/DIST/docs/install/Installation.html#sec7

0 投票
2 回答
244 浏览

bioinformatics - 打印 MultipleSeqAlignment 对象

我有一个由 3 个序列生成的比对clustalx

我可以通过 Biopython 中的预定义索引对对齐进行切片align[:,:4]

但是,打印结果会给出:

如何在不打印下面给出的名称的情况下捕获子对齐?

align[:,:4].seq不提供我正在寻找的输出。

0 投票
2 回答
2612 浏览

python - Biopython本地BLAST数据库错误

我正在尝试使用 Biopython 的 NcbiblastxCommandline 工具使用“nr”数据库在本地运行 blastx,但我总是收到有关蛋白质数据库搜索路径的以下错误:

我不确定如何更改路径以指向我下载的 nr 数据库,但我认为我正确地指出了它,因为我可以从命令行运行此代码而没有任何问题:

如我所料,上面的命令行代码创建了爆炸结果的 xml 文件。

任何使用 Biopython NCBI 命令行工具解决此问题的帮助将不胜感激!

0 投票
1 回答
875 浏览

biopython - 从 Bio.PDB 导入时出现 ImportError

我想使用 Biopython 的 PDBParser 下载 PDB 文件,但是当我尝试导入它时出现此错误:

回溯(最后一次调用):文件“C:\Python27\TAREA 3 FINAL.PY”,第 33 行,在 [HTML] 中来自 Bio.PDB 导入 * 文件“C:\Python27\lib\site-packages\Bio\ PDB_init_.py",第 15 行,在 [HTML] from PDBParser import PDBParser File "C:\Python27\lib\site-packages\Bio\PDB\PDBParser.py",第 13 行,在 [HTML] import numpy ImportError: No名为 numpy 的模块

这里发生了什么?

0 投票
3 回答
537 浏览

python-2.7 - 需要帮助安装 Biopython

安装了 mac OS 10.6 并安装了 python 版本 2.7 32 位以及 numpy 和 scipy。还有xcode 3.2版,我真的很困惑此时该做什么。我下载了 biopython 1.59 版并尝试在 python 中运行设置代码,但它不会工作。我错过了什么?

当我尝试在空闲状态下运行安装文件时,我收到以下错误消息:

0 投票
1 回答
192 浏览

python - 在 Biopython 的 PDB 模块中实现等价

背景

PDBBiopython 的模块中,PDB 结构被解析为Structure对象,这些对象将结构的组件存储在 SMCRA 架构中(Structure/Model/Chain/Residue/Atom)。此层次结构的每一级都由一个继承Entity容器类的对象表示。

等价

我的问题是任何两个实体对象都不能相等。

从同一个文件构建的结构不相等:

该结构中的残基不相等:

等等。

如果我们要分别解析同一个 PDB 文件,则结构中的任何Entity对象都不可能相等。

解决方案

这个问题的明显解决方案是永远不要对同一个 PDB 文件进行两次解析。然后,我们有对象身份,因此,等价。但是,这个答案对我来说似乎不完整。

每个Entity对象都可以返回一个标识元组get_full_id()。此方法给出从顶部对象向下的所有 id;如果在构造对象时提供了正确的 PDB id,则它对于结构中的每个结构都应该是唯一的Entity,并且在所有结构中都是唯一的。Structure

我测试Entity等效性的解决方案只是比较这个完整的 id。那是:

问题

在这一点上,我在问我对Entity等价的实现是否明智。

  • 误报(例如,提供相同 PDB id 的不同结构)是否令人担忧?
  • 每当我们需要测试等效性时,简单地手动比较完整的 id 会更好吗?
  • 是否有任何理由在模块__eq__中未实现?PDB
0 投票
1 回答
865 浏览

python - 将大fasta拆分成多个文件,不能用GI号命名

我应该首先说我对 Python 和 Biopython 都是新手。我正在尝试将一个大的 .fasta 文件(包含多个条目)拆分为单个文件,每个文件都有一个条目。我在 Biopython wiki/Cookbook 网站上找到了以下大部分代码,并对其进行了一些调整。我的问题是这个生成器将它们命名为“1.fasta”、“2.fasta”等,我需要用一些标识符来命名它们,例如 GI 编号。

如果我尝试更换:

和:

所以它会在 SeqIO 中命名类似于 seq_record.id 的东西,它会给出以下错误:

虽然生成器函数没有属性“id”,但我能以某种方式解决这个问题吗?这个脚本对于我想要做的事情来说太复杂了吗?!?谢谢,查尔斯

0 投票
2 回答
1173 浏览

python - (BioPython) 如何停止 MemoryError: Out of Memory 异常?

我有一个程序,我在其中获取一对非常大的多序列文件(> 77,000 个序列,每个序列平均长约 1000 bp)并计算每个配对单个元素之间的对齐分数并将该数字写入输出文件(我将加载到稍后生成一个 excel 文件)。

我的代码适用于小型多序列文件,但我的大型主文件在分析第 16 对后会抛出以下回溯。

我已经尝试了很多方法来解决这个问题(正如你们中的许多人可能从代码中看到的那样),但都无济于事。我尝试将大型主文件拆分为较小的批次,以输入分数计算方法。我在使用完 del 文件后尝试过它们,我尝试在 Oracle 虚拟机上使用我的 Ubuntu 11.11(我通常在 64 位 Windows 7 中工作)。我是否雄心勃勃,这在 BioPython 中是否可行?下面是我的代码,我没有内存调试经验,这是这个问题的明显罪魁祸首。非常感谢任何帮助我对这个问题感到非常沮丧。

最好的,哈利

PS 请客气,我知道我放入的代码中可能存在一些愚蠢的东西,试图解决这个问题。

0 投票
1 回答
1111 浏览

biopython - Entrez.efetch(db="Taxonomy", id=tax_id, retmode="xml") 返回空记录

以下代码返回一个空记录:

0 投票
2 回答
973 浏览

parsing - 使用 Excel 中的 ID 列表以 fasta 格式保存来自 NCBI 的序列

我对使用 python 还很陌生,我喜欢它。但是我被这个问题困住了,我希望你能给我一个关于我所缺少的东西。

我在一个 excel 文件中有一个基因 ID 列表,我正在尝试使用 xrld 和 biopython 来检索序列并将我的结果(以 fasta 格式)保存到文本文档中。到目前为止,我的代码允许我在 shell 中查看结果,但它只将最后一个序列保存在文档中。

这是我的代码:

正如我所提到的,文件“example.txt”只有最后一个显示外壳的序列(fasta 格式)。

谁能帮我在同一个文档中获取我从 NCBI 检索到的所有序列?

非常感谢

安东尼奥