问题标签 [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 简单的 PDB 库
我正在寻找一个简单的 C++ 库,用于从 pdb 文件中提取原子坐标。我遇到的大多数人都为我的简单需求做了太多,使它们变得不必要地复杂。
database - 擅长存储生物序列的商业数据库
哪些商业数据库擅长存储蛋白质/DNA序列等生物序列?有没有专门为存储这些序列而设计的?
干杯
c++ - 用于渲染蛋白质功能区图的 OpenGL 代码
我正在寻找使用 OpenGL 和 C++ 渲染蛋白质的带状图。有谁知道是否已经存在任何开源代码,或者是否有很好的指南可以做到这一点?如果没有,我宁愿自己弄清楚;)但我不想重新发明轮子,特别是如果轮子是免费的。
编辑:感谢您的回复。有谁知道这些程序是否有很好的文档说明为什么它们存储某些顶点或三角形网格以根据蛋白质中原子的结构进行渲染?
perl - 从 DNA 到 RNA 并使用 Perl 获取蛋白质
我正在研究一个读取 DNA 并找到其 RNA 的项目(我必须在 Perl 中实现它,但我不擅长它)。将该 RNA 分成三联体,以获得它的等效蛋白质名称。我将解释步骤:
1)将以下DNA转录为RNA,然后利用遗传密码将其翻译为氨基酸序列
例子:
2) 要转录 DNA,首先将每个 DNA 替换为其对应物(即,G 替换 C,C 替换 G,T 替换 A,A 替换 T):
接下来,请记住胸腺嘧啶 (T) 碱基变成了尿嘧啶 (U)。因此我们的序列变为:
使用遗传密码就是这样
然后在遗传密码表中查找每个三元组(密码子)。所以AGU变成了丝氨酸,我们可以写成Ser,或者只是S。AUU变成异亮氨酸(Ile),我们写成I。这样继续下去,我们得到:
我将给出蛋白质表:
那么如何在 Perl 中编写该代码呢?我将编辑我的问题并编写我所做的代码。
python - 蛋白质结构可视化
我被要求研究蛋白质结构可视化,比如 RasMol,用户将打开一个 pdb 文件来获取蛋白质结构。
如何从 pdb 文件生成蛋白质结构?
我想用 Python 编码并可视化我应该使用 OpenGL 还是 VTK 的结构?在这方面有没有其他模块可以帮助我?
python - Modeller 脚本 build_profile.py 没有得到正确的输出
9用于蛋白质结构建模,顺便说一下它在python2.3上运行,我之前进行了安装,当我运行脚本时,输出不正确,它应该是所有蛋白质序列的对齐,y只得到第一个序列,什么也没有否则我应该做些什么来获得正确的输出这是脚本
输出是
并且输出应该是
protein-database - pdb 蛋白质库格式 - 去除配体
我想从 PDB 记录中删除各种配体。删除 HET、HETNAM、HETATM.... 是否就足够了,即。那些,化合物在哪里用它的 3letter 代码标识,或者是否有必要清理其他一些字段?
是否已经为此目的编写了任何 python|perl 脚本?
protein-database - 如何找到多个对齐序列的相似性百分比
我的问题与蛋白质序列比对有关。当我将 ClustalW 用于 alignmnet 时,我可以看到身份百分比、高度相似和每周相似。但我想找到所有比对序列的相似性百分比而不是身份。
我搜索了有助于找出解决它的算法的软件,但我无法下载它们 ex:MStatX 这听起来很有希望解决我的问题,但不知何故我找不到下载它的信息。
我什至读到了相似度矩阵,它看起来像是一种计算序列相似度百分比的解决方案。即使这样,我也不知道在哪里可以找到下载任何软件的信息(如果有的话)。
任何人都可以帮助我找到合适的工具或方法来计算多对齐序列中的相似性百分比。
谢谢你,帕维特拉。
matlab - 如何在 Matlab 中编写以下函数进行 MS 蛋白质分析?
我需要你的帮助。我有超过 40000 种 fasta 文件格式的蛋白质。
首先我想写一个函数:
- 能够计算 b 和 y 离子的质量
- 从目标蛋白创建肽数据库(mat-file)
- 创建来自诱饵蛋白的肽数据库(mat-file)
然后,我想:
- 加载观察到的数据
- 在给定 ppm 精度的情况下过滤肽数据库中的候选肽
- 编写一个函数,根据观察到的数据对候选肽进行评分
- 提出一个阈值方案来区分真正的肽谱匹配和虚假的匹配
r - 从蛋白质数据库到 Cosmic 或 Uniprot 的蛋白质序列比对
我想将蛋白质数据库中的 PDB 文件与 Cosmic 或 Uniprot 中显示的蛋白质的规范 AA 序列进行匹配。具体来说,我需要做的是从 pdb 文件中提取主链中的碳 α 原子及其 xyz 位置。我还需要在蛋白质序列中提取它们的实际顺序。对于结构 3GFT(Kras - Uniprot 登录号 P01116),这很简单,我可以取 ResSeq 号。然而,对于其他一些蛋白质,我不知道这是怎么可能的。
例如,对于结构 (2ZHQ)(蛋白质 F2 - Uniprot 登录号 P00734),Seqres 的 ResSeq 编号对于数字“1”和“14”重复,并且仅在 Icode 条目中有所不同。此外,icode 条目不是按字典顺序排列的,因此很难判断提取的顺序。
如果考虑结构 3V5Q(Uniprot 登录号 Q16288),情况会更糟。对于大多数蛋白质,ResSeq 编号与来自 COSMIC 或 UNIPROT 等来源的实际氨基酸相匹配。但是,在位置 711 之后,它会跳转到位置 730。当查看 REMARK 465(丢失的原子)时,它表明对于链 A,726-729 丢失了。然而,在将其与蛋白质匹配后,这些 AA 实际上是 712-715。
我附上了适用于简单 3GFT 示例的代码,但如果有人是 pdb 文件方面的专家并且可以帮助我弄清楚其余部分,我将非常感激。