问题标签 [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - 使用多个条件对嵌套哈希进行排序
我对 perl 编程有点陌生,我有一个可以这样表述的哈希:
哈希的结构总结如下:
我想根据某些条件对这个哈希进行排序。首先,我只想考虑那些蛋白质总数高于 100 的生物体,然后我想显示生物体的名称以及最大的蛋白质及其长度。
为此,我将采用以下方法:
但是,这会打印出生物体名称的次数与蛋白质总数一样多,例如,它打印“蛇”120 次。此外,这不是正确排序,因为我想我应该在排序行中使用变量 $org 和 $prot。
最后,输出应如下所示:
python - 使用“findall”查找蛋白质序列的序列基序
我有一个程序需要用户输入来查找包含蛋白质序列的 FASTA 文件(如果找不到文件,则会给出错误),然后扫描序列并找到以下四个字母序列规则:以“N”开头,然后是除“P”之外的任何内容,然后是“S”或“T”,然后是除“P”之外的任何内容。如果找不到文件,我有一部分会给出错误。但是,在扫描序列时,我只收到一个字母的序列。
这是我的代码:
我正在使用的 FASTA 文件是 HIV Type-2 蛋白质组,这里有一个小片段:
显然,我的代码中的错误在于教授指示我使用的“findall”函数,我认为这可能只是因为我无法完全理解正则表达式的使用。我所拥有的是 re.findall('N^P[^P]', readprotein)。我不明白为什么我得到的单个字母序列甚至不以“N”开头,它只是一堆“T”或“S”。任何帮助表示赞赏!
python - 如何在python(pycharm)中将NumPy数组保存到PDB(蛋白质数据库)格式的文件
嘿,我不太确定这是否是一个微不足道的问题,但我遇到了一些麻烦。我正在尝试执行以下操作:
我在我的电脑上下载了一个包含大约 8000 个 pdb 文件的文件夹。我使用以下方法将文件夹转换为数组:
为了编辑它。我确定了以后不能使用的数组元素,并将它们从 protein_array 中删除——所以基本上我正在清理数组,以便以后可以使用它。我的问题是,我现在需要将编辑后的 protein_array 保存回我的计算机,以便我再次获得一个包含(现在更少)pdb 文件的文件夹。这看起来相当简单,但我找不到如何将 NumPy 数组保存到 PDB 格式的文件中。
python - 来自其 dcd 文件的水分子的时间序列数据
我正在尝试制作一个文件,其中包含来自 dcd 文件的水分子的时间序列数据。是否可以使用任何 MDAnalysis 模块或函数生成此数据?或者是否有任何 python 脚本来生成这个文件?
我需要使用 DCD 文件作为输入来生成包含两列的文件(一列具有水分子的 z 坐标,第二列具有相应的时间步长)。
python - 如何使用 Bio.PDB 分别从 PDB 文件中保存每个配体?
我有一个 PDB 文件列表。我想通过使用 BioPython 的 Bio.PDB 模块提取所有文件的配体(因此,杂原子)并将每个文件分别保存到 PDB 文件中。
我尝试了一些解决方案,例如:Remove heteroatoms from PDB,我试图对其进行调整以保留杂原子。但我得到的只是所有配体都在同一个文件中的文件。
我也尝试过这样的事情:
显然,它引发了一个错误:
我知道这是因为我的“io.save”中的“accept_residue()”。但我没有找到任何合乎逻辑的解决方案来做我想做的事......
最后,我尝试了一个像这样的解决方案,使用 chain.detach_child() :
在我看来,它会“分离”所有不是杂原子的残基( res.id[0] == " " )和所有的水( res.id[0] == "W")。但总的来说,所有的残留物和水仍然存在并且有缺陷。
那么,有可能做我需要的吗?(从我的所有文件中提取所有配体并分别保存在PDB文件中)
(抱歉我的英语不好,最终我的 Python 技能不好:/)
r - 从 excel 和 R 映射数据集
我正在尝试创建用于蛋白质相互作用分析的主数据,其中我使用来自 R 的 STRING 数据库和 excel 中存在的外部数据集(https://drive.google.com/file/d/1aJisbhWyqUFcx_wIBMxcDtw5fMIE-z5d/view?usp=分享)
对于可用于此类情况的想法/代码,我将不胜感激。
我尝试的代码如下:
python - 用于自动在线工具查询的脚本
所以我有一些氨基酸序列字符串,我想将它们用作研究它与人体免疫系统某些组件相互作用的工具的输入(http://www.cbs.dtu.dk/services/NetMHCcons/) .
我想问一下,如果有的话,通过脚本(最好是 R 或 python)访问、输入数据和获取输出的方法是什么。我的主要问题是我有很多需要单独查询的序列,所以想要自动化整个事情。该网站有一个字段读取“提交”,该字段接受字符串输入。还有另一个字段“选择物种/基因座”,它提供了一个下拉菜单,需要从中选择一个选项。最后有一个“提交”按钮。点击提交后,输出只是加载到页面上。
我试探性地研究了 RSelenium 和 Rcurl,但想问问是否有更有效的方法。
file - 如何正确地将链 ID 添加到我的 pdb 文件中?
我正在尝试对我的单链 PDB 文件(长 766 个残基)进行一些分析,但它需要一个链 ID。目前,没有一个。
这是 pdb 文件的片段:
我将链标记为链 A 的最佳方式是什么?
scripting - 试图通过VMD找出嵌入脂质双层的AQP蛋白每个孔中的渗透事件
我的项目基于对包含水箱和脂质双层的系统的 MD 模拟分析,其中嵌入了水通道蛋白。在该系统上进行时间步长 150 ns 的模拟,以研究水渗透和流过脂质双层的分析。我的工作分析之一需要计算通过这种嵌入蛋白质的每个通道的水渗透事件(这种蛋白质包含四个单体,形成四个水通道)。我正在使用 VMD 进行分析。
我从互联网上获得了这个脚本https://www.ks.uiuc.edu/Training/Tutorials/science/nanotubes/files/permeation.tcl 。但是这个脚本没有按照我的要求给出结果。
因为我想分别找出通过每个孔隙/水通道发生的渗透事件,这个脚本只是计算整个 AQP 层的水渗透事件。我没有足够的专业知识来根据我的要求更改此脚本。
io - 文件未显示在通过 tcl 脚本生成的文件夹中
我正在尝试使用 tcl 脚本(通过 VMD)编写文件。当我在 tk/tcl 控制台上键入命令“dir”时,它会显示我正在尝试生成的文件名。但是当我尝试在该工作目录文件夹中手动打开该文件时,它甚至没有显示在其中。
这是一段代码。