问题标签 [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 awk 、 python 或 biopython 从 PDB 文件中获取子单元的数量?
我有一个目录中的 PDB(文本)文件。我想打印每个 PDB 文件中的子单元数。
- 读取 pdb 文件中以
ATOM
- 该
ATOM
行的第五列包含A
、B
、C
等D
。 - 如果只包含
A
子单元数为 1。如果包含A
和子B
单元数为 2。如果包含A
,B
子C
单元数为 3。
1kg2.pdb 文件
1uz3.pdb 文件
2b69.pdb 文件
期望的输出
如何使用 awk、python 或 Biopython 做到这一点?
python - 使用 Biopython 在线运行 BLAST 的语法错误
我正在尝试构建一个脚本,以按照 Biopython 教程和食谱(第 7 章)将焦磷酸测序的 fasta 文件与核苷酸 GenBank 数据库进行比较。
在进程运行时,提示符会显示以下消息:
而且我不知道问题是什么,或者如何解决它。我的脚本中可能有后来的错误。但现在,我不能继续用它来唤醒。
biopython - Biopython 找不到文件
我正在尝试从 Python 提示符运行 qblast,在导入我需要的所有库后,Python 找不到我的文件:
我试图写下文件的所有路径(“/Users/imac ...”)并将文件移动到 Python 和 Biopython 文件夹,我得到了相同的消息。
我必须在哪里保存我的文件?我究竟做错了什么?
python - 命令行可选参数
所以我仍在编码,甚至不确定这是否一切正常,但是当我什至无法运行时很难测试它。这是我第一次尝试使用多个可选输入,每次运行时都会出现错误:
“命令行参数错误:参数“查询”。文件不可访问:`sequence_filename'”
命令行输入是文件名 (require),然后是函数将运行的可选输出文件,然后是 prot(如果是蛋白质,则默认)或 na(如果是核酸)的可选变量
提前致谢。
biopython - Bio.Entrez.Parser.ValidationError:未能在 DTD 中找到标记“构建”
我刚刚安装了 Biopython 并想尝试它的功能,所以我开始阅读教程。
然而,当我到达关于从 Entrez 获取信息的章节时,我遇到了一个问题。
教程中的示例很简单:
这工作正常。但是,一旦我想解析与 pubmed 不同的数据库,我就会收到以下错误:
尝试 validate=False 选项也不起作用,因为这会引发 Bio.Entrez.Parser.NotXMLError。
有人可以告诉我我做错了什么以及如何解决这个问题?
python - 如何在 Python 中找到开放阅读框
我正在使用 Python 和正则表达式来查找ORF
(开放阅读框)。
查找子字符串 仅由以下字母ATGC
(无空格或换行符)组成的字符串:
以 开头ATG
,以TAG
or结尾TAA
,TGA
并且应该考虑从第一个字符开始的顺序,然后是第二个字符,然后是第三个字符:
我试过的:
我怎样才能找到一种方法来检查起始密码子,然后找到第一个终止密码子。随后找到下一个起始密码子和下一个终止密码子。
我希望将其运行三帧。如前所述,三帧将序列的第一个、第二个和第三个字符作为开始。
此外,序列需要分成 3 的小部分。它应该是这样的:
任何帮助将不胜感激。
我的最终答案:
上面的 write 函数不能帮助我将内容写入文本文件。我进去的都是NONE..为什么会出现这个错误..有人可以帮忙吗?
python - 使用 Biopython (Python) 从 FASTA 文件中提取序列
好的,所以我需要使用 python(biopython, http: //biopython.org/DIST/docs/tutorial/Tutorial.html )从 FASTA 文件中提取部分序列
我需要从每个序列中获取前 10 个碱基并将它们放在一个文件中,保留 FASTA 格式的序列信息。最糟糕的是,如果没有办法保留序列信息,我可以只使用碱基。所以这里有一个例子:
我需要一些方法来获得前 10 个基地(然后我计划在最后 10 个基地再做一次)。该教程网站非常详尽,但我对此并不陌生,因为它没有涉及到这个,我什至不确定它是否可能。谢谢你提供的所有帮助。
python - 如何克隆 BioSQL 数据库中的生物条目记录
我需要将记录从一个子数据库完全克隆到另一个。我似乎无法直接将查找插入加载,虽然我可以写入文件并再次将其读回,但这似乎是一个相当不雅的解决方案。
一个侧面但核心的问题是:有没有一种简单的方法可以将 DBSeqRecord 完全加载到传统的 SeqRecord 中?
非常感谢!
python - 使用 python/biopython 翻译混合的 fasta 文件
所以我有一个程序,它从数据库中获取一堆序列并将它们下载到一个 fasta 文件中。问题是这些序列可能是蛋白质,也可能是 DNA。我将大的 fasta 文件拆分成许多小的 fasta 文件,一旦我有了序列,我需要它们都是蛋白质。所以我想测试每一个,看看它是否是蛋白质。
如果它们都是蛋白质,我很好,如果它们都是 dna,我有一种优雅的方式来翻译它们,但我需要找到一种方法来测试每个新的 fasta 文件,翻译它并进行翻译替换dna文件
这是我到目前为止所拥有的:
我尝试将其设置为字符串(我认为),但我不能使用字母,因为这不是 fasta 的格式,我尝试了很多其他的东西。无论如何,任何帮助将不胜感激。
只是对于那些不熟悉的人来说,fasta 文件的格式如下: