问题标签 [protein-database]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
324 浏览

r - 拉对齐字符位置

我使用成对对齐来获得以下信息:

然后我可以使用:

获取模式和主题的完整字符串序列。但是,如何从对象中获取数字 448 和 1 作为整数?我需要使用这些数字,但似乎没有办法得到它们。

0 投票
1 回答
661 浏览

python - 如何使用 Biopython 解析 PQR 文件

我想让Biopython能够读取PQR文件(修改后的PDB文件,占用率和 B 因子被原子电荷和半径替换)。

Biopython PDB 解析器无法读取 Bfactor,因为它通过 PDB 列索引(PQR 格式不支持)检索值。

标准 PDB 原子记录的示例:

1.00 是占用率,48.46 是 bfactor

和 PQR :

0.1010 是电荷,1.8240 是半径

那么,如何避免"PDBConstructionException: Invalid or missing B factor"并正确解析电荷/半径值?

0 投票
1 回答
816 浏览

xml - 如何编辑 Uniprot 下载的信息(txt 或 XML)

我下载了一组蛋白质的 Uniprot 文件(n>1000,因此无法手动检查这些蛋白质)。完整的数据文件以平面文本文件或 XML 文件的形式提供。这些文件中有很多信息(例如,请参见此处:http ://www.uniprot.org/uniprot/?query=organism%3A%22homo+sapiens%22 ,然后去下载,您可以查看前 10 个完整数据(txt 或 xml 文件)。

由于其中有很多我不需要的信息,我必须找到一种方法来选择我感兴趣的信息(最好是在数据矩阵中)。对于每个条目,这是:

有些条目不会包含所有信息(如跨膜域),然后可能会填写一个 NA。有些条目将包含超过 1 次相同类型的信息(再次如跨膜域),对于这些,都应该命名(如果可能在同一个单元格中,用“,”或“;”或“|”分隔)。

我对 R 有点熟悉,但我无法做到这一点(可能是缺乏编程技能)。我查看了 XML 编辑器(因为这似乎是最简单的解决方案),但我无法让任何工作,我根本找不到可以帮助我的东西并解释了不同的步骤。我也知道应该有一种方法可以在 R 中处理 XML 文件,但是那里的帮助文件也没有让我到达我需要的地方。在 XMLQuire 中,到目前为止我唯一可以下载的东西,我可以看到该文件,但是当我想做任何事情时它一直在我身上崩溃(即使我只是想弄清楚我可以在哪里编辑文件),所以我的文件可能太长或者还有其他问题。

对此问题的帮助将不胜感激,我希望找到做过类似事情的人,但欢迎所有解决方案,无论多么小,无论我需要使用哪个程序,只要它是免费软件。

如果事情不清楚,也请告诉我,我真的尽量做到清楚。很抱歉在这个问题上是个金发女郎。

0 投票
0 回答
170 浏览

tree - d3可以画pfam域吗

只是一个快速的问题。我可以使用 d3 来绘制如下所示的蛋白质结构域吗?

蛋白质结构域的图像

我的计划是将这些小蛋白质结构域附加到一棵树上,这看起来很棒。

提前非常感谢!

0 投票
1 回答
587 浏览

python - Biopython 1.60 中的 Bio.Entrez 和蛋白质问题

我在使用 Bio.Entrez 搜索蛋白质时遇到问题。我正在这样做:

我也遇到了 einfo() 的问题,请查看:

为什么不支持蛋白质数据库?有人可以帮我解决这个问题吗?

0 投票
2 回答
1398 浏览

regex - 从 fasta 文件生成随机子集序列

向全世界的 Perl 大师问好。

我在编程方面遇到了另一个麻烦。我正在编写一个程序,该程序从具有特定输入数的蛋白质 fasta 文件中选择随机序列。

一般的 fasta 文件如下所示:

>seq_ID_1 描述等 ASDGDSAHSAHASDFRHGSDHSDGEWTSHSDHDSHFSDGSGASGADGHHAH ASDSADGDASHDASHSAREWAWGDASHASGASGASGSDGASDGDSAHSHAS SFASGDASGDSSDFDSFSDFSD

>seq_ID_2 描述等 ASDGDSAHSAHASDFRHGSDHSDGEWTSHSDHDSHFSDGSGASGADGHHAH ASDSADGDASHDASHSAREWAWGDASHASGASGASG

等等.......

字母代表氨基酸肽。

所以我有一个包含 1000 个序列的 fasta 文件,想要检索其中的 63.21%,即 632.1 个序列。但是序列不能是浮点数,所以如果它超过 0.5 我想向上取整,如果小于 0.5 向下取整。

这是我生成随机序列子集的代码,但它不太擅长工作。

但是,它有时会给出适当数量的序列,有时会给出一个更多的序列。我怎样才能摆脱它......请有什么想法吗?

或者也许更好的短代码?

在这里你可以得到一个 75 酵母蛋白质组文件。[http://www.peroxisomedb.org/Download/Saccharomyces_cerevisiae.fas][1]

希望我能尽快解决这个问题...... :(

0 投票
1 回答
1070 浏览

python - 将具有多个结构的 PDB 文件解析为数组

我有一个包含几千个结构的 PDB 文件,我想将前十个结构的 α 碳的位置坐标保存到一个 numpy 数组中。我可以使用下面的代码将具有单个结构的 PDB 文件解析为数组,但不能将其扩展到具有许多结构的文件。

0 投票
2 回答
3915 浏览

python - 如何使用 python 脚本输出 .pdb 文件?

我目前正在使用 python 操作 .pdb (蛋白质数据库)文件。我的最终目标是将 python 脚本转换回 pdb 文件,以便我可以在 VMD 或 PyMol 中运行模拟。有人可以帮忙吗?

0 投票
2 回答
1556 浏览

python - 如何在结构中找到一个中心。蟒蛇代码

我是python编码的初学者。

我正在研究结构坐标。

我有 1000 个具有 xyz 坐标信息的原子的 pdb 结构。

我的结构可以有任何形状。

我正在努力寻找结构内的中心点。从中心点我想画一个半径为 20 厘米的球体。

我试试这个

0 投票
1 回答
392 浏览

python - 用于建模蛋白质结构 python 的 Prody

我们可以使用 ProDy 来模拟蛋白质的结构吗?有没有其他方法可以使用 Python 对蛋白质的结构进行建模?

谢谢