问题标签 [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何从 PDB 文件中提取链?
我想从 pdb 文件中提取链。我有一个名为 pdb.txt 的文件,其中包含 pdb ID,如下所示。前四个字符代表 PDB ID,最后一个字符是链 ID。
我想 1)逐行读取文件 2)从相应的 PDB 文件中下载每个链的原子坐标。
3)将输出保存到文件夹。
我使用以下脚本来提取链。但是此代码仅打印来自 pdb 文件的 A 链。
python - 使用“Biopython”——如何改进我的代码
我有以下代码:
如您所见,我目前正在编写两个文件。我真的只需要第二个文件。有没有人有任何建议将两个“下标”合并为一个?
输入文件“HPV16_CG.aln.fas”如下所示:
我非常感谢所有帮助/建议来帮助我改进这一点!
python - 为什么 PDBParser 无法读取所有 fpocket 输出文件?
我正在使用 fpocket 在我的 PDB 蛋白质结构中找到口袋。输出是一个有序的 pockets 列表pocket0_atm.pdb
,pocket1_atm.pdb
等等。一些文件被顺利读入Bio.PDB.PDBParser
。其他人因“AssertionError”而失败。
尝试将有效的 .pdb 文件与失败的文件进行比较并没有显示出一致的差异。有任何想法吗?
这是给我带来麻烦的相关代码部分:
python - 从 FASTA 文件中计算二氨基酸频率(Bigram 频率)
给定大量的 FASTA 文件(用于分泌肽的各种生物的肽组),我如何使用 Python(或 Matlab)读取 FASTA 文件(来自 UNIProt),并计算每个氨基酸的频率,和氨基酸“双”配对?
(IE - 输出应该有每个单独氨基酸的百分比(22 个字母/字符中)和氨基酸配对的频率。
实际上,我想计算字母对的二元组(或 n-gram,如果易于实现)频率。
在 FASTA 文件中,这 22 个氨基酸分别由一个唯一的字母表示,每个蛋白质的名称在其行前以 > 开头。(已经解析过了,所以只剩下相关的字符)
文件样本:
FFKA
FLRN
MTTVSYVTILLTVLVQVLTSDAKATNNKRELSSGLKERSLSDDAPQFWKGRFSRSEEDPQ FWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQFWKGRFSDPQ FWKGRFSDGTKRENDPQYWKGRFSRSFEDQPDSEAQFWKGRFARTSSGEKREPQYWKGRF SRDSVPGRYGRELQGRFGRELQGRFGREAQGRFGRELQGRFGREFQGRFGREDQGRFGRE DQGRFGREDQGRFGREDQGRFGREDQGRFGREDQGRFGRELQGRFGREFQGRFGREDQGR FGREDQGRFGRELQGRFGREDQGRFGREDQGRFGREDLAKEDQGRFGREDLAKEDQGRFG REDIAEADQGRFGRNAAAAAAAAAAAKKRTIDVIDIESDPKPQTRFRDGKDMQEKRKVEK KDKIEKSDDALAKTS
非常感谢!
macos - ImportError:没有名为 BIO 的模块
我是编程新手,Python 也是如此。随后,我有一个我不知道如何解决的问题。
我正在使用旨在与 BioPython 一起使用的脚本在 Mac OS 上工作。我认为经过大量工作后,我终于正确安装了 BioPython,在尝试了很多次安装 NumPY 之后,但是当我尝试运行我的脚本时,我收到了这个错误:
我的脚本是这样开始的:
我也尝试过先插入:
使脚本从其他目录读取,但后来我有:
最后我尝试从 Python 路径导入 Bio 模块,我没有问题,所以我认为模块会正确安装。
我能做些什么?
非常感谢
python - 从blastx输出文件中提取特定条目,写入新文件
我创建了一个脚本,可以在 XML 格式的 Blastx 输出文件中成功搜索关键字(由用户指定)。现在,我需要将对齐标题中包含关键字的那些记录(查询、命中、分数、evalue 等)写入新文件。
我为每个查询标题、命中标题、电子值和对齐长度创建了单独的列表,但似乎无法将它们写入新文件。
问题 #1:如果 Python 出错,并且其中一个列表缺少值……怎么办?然后所有其他列表将提供有关查询的错误信息(“线滑点”,如果您愿意的话......)。
问题 #2:即使 Python 没有错误,并且所有列表的长度相同,我如何将它们写入文件,以便每个列表中的第一项相互关联(因此,项目 #10 来自每个列表也关联?)我应该创建一个字典吗?
问题#3:字典只有一个键值,如果我的查询有几个不同的命中怎么办?不确定它是否会被覆盖或跳过,或者它是否会出错。有什么建议么?我当前的脚本:
/li>
python - 使用 Python/Biopython/Clustalw 的生物信息学脚本,使用标准输出迭代蛋白质目录
所以我在 python 中做一些生物信息学工作,利用 Biopython 和 Clustalw2 来对齐蛋白质序列。我对此相当陌生(只有几个月的经验),并且在使用 stdout 并迭代整个目录时遇到了问题。任何帮助,将不胜感激。
所以我写了这个,它一次处理一个文件并产生所需的结果......
...这似乎工作得很好。当我尝试在整个目录上迭代它时问题就来了(比如需要对齐的 1000 多个蛋白质序列文件。我知道问题出在标准输出上,但此时我有点太业余了,不知道如何解决它. 下面是损坏的代码——</p>
正如你所看到的,我已经把这个搞砸了。感谢您的任何帮助,您可以提供。
python - 无法调用 Biopython SeqUtils Six_frame_translations
执行以下代码时:
我收到以下错误:
我正在使用 Python 3.23、Biopython 1.59
有什么建议么?谢谢,
查尔斯
python - biopython - Entrez.esearch() 查询翻译与我的查询不对应
我是 Biopython 的新手。使用此代码:
我得到:
但我期待这样的事情:
(来自http://www.ncbi.nlm.nih.gov/nuccore搜索结果的查询翻译)
refseq 过滤器似乎也不起作用。我究竟做错了什么?提前致谢!
string - 在 python 字符串中查找重叠的 kmers
我试图在一个长二进制字符串中找到二进制 5-mers 的计数。也就是说,给定一个字符串 say: seq='000111100101101' ,我想计算每个 5-mer 出现的次数。我很容易生成了所有 32 次迭代的列表:
我现在的问题是计算重叠中每个组合的出现次数。(也就是说,我想检查长度为 5 的重叠窗口:0:4、1:5、2:6、3:7...(序列长度为 4 窗口的总和)。我不确定该怎么做所以以一种计算重叠窗口的方式。(combo[i] = seq.count(i) 似乎不起作用)。
谢谢!
示例 给定 seq 的期望输出: