问题标签 [biopython]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2022 浏览

alignment - Pairwise seqence alignment in Biopython

How to do pairwise sequence alignment in Biopython? Can I get sample code for this?

0 投票
1 回答
201 浏览

python - 在 Python 脚本中嵌入程序

我创建了一个程序,允许用户输入有关 DNA 扭曲、转弯和位置的信息以及其他信息。输出是一个 PDB 文件,但是,我想在程序中的 .pdb 查看器中显示 .pdb 文件,但似乎不知道如何操作。所需的应用程序是 Chimera (http://www.cgl.ucsf.edu/chimera/) 或 swiss (http://spdbv.vital-it.ch/)。

0 投票
1 回答
431 浏览

python - 如何在 Python 中从一个字符串中查找多个子字符串

例如,如果我有一个字符串 'ATGAGGGATAGAGGGTTGGGAGAGATGGATAGGGGATAGATTG' 我必须在 ATG 和 TTG 之间获取子字符串,因为我们可以看到字符串中有两种。

无论如何我都无法弄清楚,请帮助我完成它!

0 投票
4 回答
233 浏览

python - 如何仅选择某些子字符串

从字符串say dna = 'ATAGGGATAGGGAGAGAGCGATCGAGCTAG' 我得到子字符串say dna.format = 'ATAGGGATAG','GGGAGAGAG' 我只想打印长度可被3整除的子字符串怎么做?我正在使用模数,但它不起作用!

更正的代码

这仍然没有给我长度可被三整除的子字符串。. 知道有什么问题吗?

我只希望打印长度可被三整除的子字符串

0 投票
1 回答
1377 浏览

python - DNA搜索序列正则表达式中的多个错配

我编写了这个野蛮的脚本来创建字符串的排列,该字符串在字符串中所有可能的位置组合中包含 n(最多 n = 4)$。我最终会.replace('$','(\\w)')用于 dna 搜索序列中的不匹配。由于我编写脚本的方式,某些排列少于请求的 $ 数量。然后我编写了一个脚本来删除它们,但它似乎并不有效,并且每次我运行删除脚本时,它都会删除更多不需要的排列。在下面粘贴的代码中,您将看到我使用一个包含 4 个不匹配的简单序列来测试该函数。然后我运行一系列删除脚本,计算每次删除了多少表达式……根据我的经验,删除所有通配符 $ 少于 4 个的表达式大约需要 8 次。我对此有几个问题:

  1. 是否有用于搜索“n”不匹配的内置函数?甚至在 biopython 中?到目前为止,我已经看到了 Paul_McGuire_regex 函数:
    Search for string allowed for one mismatch in any location of the string
    这似乎只会产生 1 个不匹配。我必须承认,我并不完全理解该页面上剩余功能中的所有代码,因为我是一个非常新的编码器。

  2. 由于我认为这对我来说是一个很好的练习,有没有更好的方法来编写整个脚本?...我可以根据需要多次迭代 Paul_McGuire_regex 函数吗?

  3. 最让我困惑的是,为什么删除脚本第一次不能 100% 工作?

感谢您的任何帮助,您可以提供!

0 投票
1 回答
227 浏览

python - 使用 Python 检索缺失的序列 -'split' 命令不起作用

我有一组使用软件找到​​的(蛋白质)序列,但它们的长度比数据库中的原始序列短。我下载了整个数据库,现在我有了这些不完整的序列找到和从中找到序列的原始数据库。

软件的示例结果:

数据库中的序列:

所以缺失的残基是“ARR”,最后是“EIP”,我有大约 70 个这样的不完整序列?我想编写一个可以自动从数据库中检索完整序列的 Python 程序。我对python真的很陌生,当然我会尝试编写自己的代码,我想知道是否有任何库或类似biopython模块的东西可以做到这一点。我的计划是从我的结果中获取间隔,展开它们并在原始数据库中选择它,但我不知道如何进一步进行。

我想得到list_seq = [ARR,KEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVE,EIP],以便我可以进一步使用list_seq[0] r.strip(3)list_seq[1] l.strip[3]以便我得到完整的序列。但 list_seq 不起作用。

提前致谢

0 投票
2 回答
529 浏览

python - 在接下来的 10 个字符中在 python 中查找各种重复的字符串

所以我正在解决一个问题,我必须在遇到初始字符串后找到各种重复的字符串,比如我们采用 ACTGAC,因此数据文件的序列如下所示:

AAACTGACACCATCGATCAGAACCTGA

因此,在该字符串中,一旦我们找到 ACTGAC,我就需要分析接下来的 10 个字符是否符合某些规则的字符串重复。我已经编码了规则,但是任何人都可以告诉我,一旦我找到了我需要的字符串,我就可以为接下来的十个字符创建一个子字符串来分析。我知道 str.partition 函数可以在找到字符串后执行此操作,然后 [1:10] 可以获取接下来的十个字符。

谢谢!

0 投票
1 回答
1408 浏览

python - Biopython 错误 - 系统找不到指定的文件

我遇到了一个我无法解决的错误。

我正在尝试执行将执行 tBLASTn 算法的最简单的命令集,在数据库(也指定为文件-> cucumber.fasta)中查找序列(指定为“pytanie.fasta”文件的序列)。结果将保存在“wynik.txt”文件中。

代码如下所示:

我得到的错误是:

我在用:

  • Eclipse SDK 版本:3.7.1
  • Python 2.7 版
  • 操作系统:64 位 Windows 7

我也在 32 位 Windows XP 上尝试过这个,它产生了同样的错误。Biopython 包应该可以正常工作,因为它通过了 biopython 网站建议的测试。我也尝试过文件所在路径的其他格式,但没有奏效。我的朋友在 Ubuntu 上使用了相同的代码,并且运行良好。

有谁知道如何解决这个错误?

0 投票
1 回答
3198 浏览

python - 使用 biopython 从 gb 文件中提取数据

我有一个 gb 文件,我需要从文件中提取一些特定的特征:蛋白质编码基因名称和大小。

我使用了 seqFeature 和 subfeatures 但它不起作用。

从这个文件中我应该得到(ND1 和 2729..3685,ND2 和 3889..4932,......如果还有更多)

我是 biopython 的新手,希望得到有关如何执行此操作的帮助。

0 投票
2 回答
343 浏览

python - HSExposure() 模块不可调用

当我执行此代码时,我收到此错误:

它出什么问题了?