问题标签 [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
alignment - Pairwise seqence alignment in Biopython
How to do pairwise sequence alignment in Biopython? Can I get sample code for this?
python - 在 Python 脚本中嵌入程序
我创建了一个程序,允许用户输入有关 DNA 扭曲、转弯和位置的信息以及其他信息。输出是一个 PDB 文件,但是,我想在程序中的 .pdb 查看器中显示 .pdb 文件,但似乎不知道如何操作。所需的应用程序是 Chimera (http://www.cgl.ucsf.edu/chimera/) 或 swiss (http://spdbv.vital-it.ch/)。
python - 如何在 Python 中从一个字符串中查找多个子字符串
例如,如果我有一个字符串 'ATGAGGGATAGAGGGTTGGGAGAGATGGATAGGGGATAGATTG' 我必须在 ATG 和 TTG 之间获取子字符串,因为我们可以看到字符串中有两种。
无论如何我都无法弄清楚,请帮助我完成它!
python - 如何仅选择某些子字符串
从字符串say dna = 'ATAGGGATAGGGAGAGAGCGATCGAGCTAG' 我得到子字符串say dna.format = 'ATAGGGATAG','GGGAGAGAG' 我只想打印长度可被3整除的子字符串怎么做?我正在使用模数,但它不起作用!
更正的代码
这仍然没有给我长度可被三整除的子字符串。. 知道有什么问题吗?
我只希望打印长度可被三整除的子字符串
python - DNA搜索序列正则表达式中的多个错配
我编写了这个野蛮的脚本来创建字符串的排列,该字符串在字符串中所有可能的位置组合中包含 n(最多 n = 4)$。我最终会.replace('$','(\\w)')
用于 dna 搜索序列中的不匹配。由于我编写脚本的方式,某些排列少于请求的 $ 数量。然后我编写了一个脚本来删除它们,但它似乎并不有效,并且每次我运行删除脚本时,它都会删除更多不需要的排列。在下面粘贴的代码中,您将看到我使用一个包含 4 个不匹配的简单序列来测试该函数。然后我运行一系列删除脚本,计算每次删除了多少表达式……根据我的经验,删除所有通配符 $ 少于 4 个的表达式大约需要 8 次。我对此有几个问题:
是否有用于搜索“n”不匹配的内置函数?甚至在 biopython 中?到目前为止,我已经看到了 Paul_McGuire_regex 函数:
Search for string allowed for one mismatch in any location of the string,
这似乎只会产生 1 个不匹配。我必须承认,我并不完全理解该页面上剩余功能中的所有代码,因为我是一个非常新的编码器。由于我认为这对我来说是一个很好的练习,有没有更好的方法来编写整个脚本?...我可以根据需要多次迭代 Paul_McGuire_regex 函数吗?
最让我困惑的是,为什么删除脚本第一次不能 100% 工作?
感谢您的任何帮助,您可以提供!
python - 使用 Python 检索缺失的序列 -'split' 命令不起作用
我有一组使用软件找到的(蛋白质)序列,但它们的长度比数据库中的原始序列短。我下载了整个数据库,现在我有了这些不完整的序列找到和从中找到序列的原始数据库。
软件的示例结果:
数据库中的序列:
所以缺失的残基是“ARR”,最后是“EIP”,我有大约 70 个这样的不完整序列?我想编写一个可以自动从数据库中检索完整序列的 Python 程序。我对python真的很陌生,当然我会尝试编写自己的代码,我想知道是否有任何库或类似biopython模块的东西可以做到这一点。我的计划是从我的结果中获取间隔,展开它们并在原始数据库中选择它,但我不知道如何进一步进行。
我想得到list_seq = [ARR,KEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVE,EIP]
,以便我可以进一步使用list_seq[0] r.strip(3)
,list_seq[1] l.strip[3]
以便我得到完整的序列。但 list_seq 不起作用。
提前致谢
python - 在接下来的 10 个字符中在 python 中查找各种重复的字符串
所以我正在解决一个问题,我必须在遇到初始字符串后找到各种重复的字符串,比如我们采用 ACTGAC,因此数据文件的序列如下所示:
AAACTGACACCATCGATCAGAACCTGA
因此,在该字符串中,一旦我们找到 ACTGAC,我就需要分析接下来的 10 个字符是否符合某些规则的字符串重复。我已经编码了规则,但是任何人都可以告诉我,一旦我找到了我需要的字符串,我就可以为接下来的十个字符创建一个子字符串来分析。我知道 str.partition 函数可以在找到字符串后执行此操作,然后 [1:10] 可以获取接下来的十个字符。
谢谢!
python - Biopython 错误 - 系统找不到指定的文件
我遇到了一个我无法解决的错误。
我正在尝试执行将执行 tBLASTn 算法的最简单的命令集,在数据库(也指定为文件-> cucumber.fasta)中查找序列(指定为“pytanie.fasta”文件的序列)。结果将保存在“wynik.txt”文件中。
代码如下所示:
我得到的错误是:
我在用:
- Eclipse SDK 版本:3.7.1
- Python 2.7 版
- 操作系统:64 位 Windows 7
我也在 32 位 Windows XP 上尝试过这个,它产生了同样的错误。Biopython 包应该可以正常工作,因为它通过了 biopython 网站建议的测试。我也尝试过文件所在路径的其他格式,但没有奏效。我的朋友在 Ubuntu 上使用了相同的代码,并且运行良好。
有谁知道如何解决这个错误?
python - 使用 biopython 从 gb 文件中提取数据
我有一个 gb 文件,我需要从文件中提取一些特定的特征:蛋白质编码基因名称和大小。
我使用了 seqFeature 和 subfeatures 但它不起作用。
从这个文件中我应该得到(ND1 和 2729..3685,ND2 和 3889..4932,......如果还有更多)
我是 biopython 的新手,希望得到有关如何执行此操作的帮助。
python - HSExposure() 模块不可调用
当我执行此代码时,我收到此错误:
它出什么问题了?