问题标签 [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Biopython:如何避免蛋白质中的特定氨基酸序列以绘制 Ramachandran 图?
我编写了一个 python 脚本来绘制泛素蛋白的“拉马钱德兰图”。我正在使用 biopython。我正在处理 pdb 文件。我的脚本如下:
我想修改此代码以忽略 GLYCINE 氨基酸,然后绘制 Ramachandran 图。我的输出如下:
arrays - 从文件中的数据制作数组并减去它们
我正在尝试从蛋白质数据库文件 (PDB) 中找到 3D 对象之间的距离。PDB 文件如下所示。
例子:
我正在尝试将第一行 5 位数字作为x坐标并将它们放入一个数组中。最后一列表示PDB 文件PROT
中稍后的更改。MEM1
我试图通过将它们放入两个数组中来从x坐标中减去所有MEM1
x坐标。Prot
我目前有:
唯一打印的是 PDB 部分的最后@protx
一个x坐标。我需要全部打印出来。我的总体目标是通过使用找到蛋白质的每个原子与膜的每个原子之间的距离。然后何时打印 resID,在本例中为 1,对应于. $splitline[5]
PROT
PROT
MEM
d = sqrt((deltaX)^2+(deltay)^2+(deltaz)^2)
d < 5
GLU
download - 使用 biopython 从蛋白质数据库下载 pdb 时出错
一些 pdb 不能使用 biopython 从 PDB 下载,尽管它们存在于 PDB 中。它会产生错误。此代码用于下载 pdb (2j8e) 它无法下载,但它适用于其他 pdb。
这是一个错误。有人遇到过这个问题吗?
matlab - Matlab:查询 pdb 文件中的所有氮坐标?
我试图从泛素蛋白中提取氮坐标。我有来自http://rcsb.org/pdb/home/home.do网站的 1UBQ.pdb 文件。我做了以下事情。
'y' 变量给出 1x602 结构数组,其中包含许多字段,包括坐标 X、Y、Z。该蛋白质中有 76 个残基,因此有 76 个氮。如何将(X,Y,Z)数据分别提取到数组中?
arrays - Matlab:如何在我的 Ramachandran 图中突出显示甘氨酸残基?
我正在尝试 matlab 绘制 ramachandran 图,而不使用内置命令。我也成功了。现在我想在 scatter 数组中单独发现 GLYCINE。任何想法如何做到这一点?(链接到 1UBQ.pdb 文件:http ://www.rcsb.org/pdb/download/downloadFile.do?fileFormat=pdb&compression=NO&structureId=1UBQ )
输出是:
编辑:我的情节正确吗?Biopython:如何避免蛋白质中的特定氨基酸序列以绘制 Ramachandran 图?有一个情节略有不同的答案。
修改后的代码如下:
它给出如下输出(没有 GLY):
python - 想要使用 python 和 BeautifulSoup 从 RCSB 页面中提取期刊标题
我正在尝试获取有关蛋白质数据库中原始引用论文的具体信息,仅给出蛋白质的 4 个字母 PDBID。
为此,我使用了 python 库请求和 BeautifulSoup。为了尝试构建代码,我转到了特定蛋白质的页面,在本例中为 1K48,并保存了页面的 HTML(通过按 command+s 并将 HTML 保存到我的桌面)。
首先要注意:
1) 该页面的网址是:http ://www.rcsb.org/pdb/explore.do?structureId=1K48
2) 您可以通过将最后四个字符替换为适当的 PDBID 来访问任何蛋白质的页面。
3) 我打算在许多 PDBID 上执行此过程,以便按它们最初出现的期刊对大列表进行排序。
4) 通过 HTML 搜索,可以在此处的表单中找到期刊标题:
表格中有更多内容,但不相关。我所知道的是我的期刊标题“Arch.Biochem.Biophys”位于“se_journal”类的跨度标签内。
所以我写了以下代码:
理想情况下,我可以使用 find 而不是 findAll,因为这是文档中仅有的两个,但我使用 findAll 至少验证我得到的是一个空列表。我假设它会返回一个包含两个带有“se_journal”类的跨度标签的列表,但它反而返回一个空列表。
在花了几个小时研究可能的解决方案(包括在 doc 中打印每个 span 的一段代码)之后,我得出的结论是 requests doc 根本不包含我想要的行。
有谁知道为什么会这样,我可以做些什么来解决它?
谢谢。
python - 熊猫出现故障?无法覆盖值
所以我尝试运行一个我之前开发的代码,它已经使用 pandas 很好地运行了很多次。
我的数据框有一个自定义索引(以唯一的字符串值作为索引,代表一个唯一的标识符,在这种情况下是单个蛋白质)和文件名作为列。然后,我使用迭代过程将计数分配给数据框中的某些单元格。因此,假设我有一个带有给定 abritrary 键的默认字典 (my_dict),其值为 [filename, protein, count]。
我有一个排序的文件名列表和一个排序的蛋白质列表,分别称为 all_filenames 和 all_proteins。
但是,每当我打印 df 时,由于某种原因,在这种情况下它会返回完全空白(具有正确的索引和文件名),而通常不会。
所以为了测试,我对数据框做了以下操作:
我尝试了 df[my_filename].ix[my_protein]、df[my_filename].loc[my_protein],甚至创建了自定义索引。
通常这个脚本工作正常。我的文件名通常类似于:beta_maxi070214_08,所以没有空格或 ASCII 字符。
我的蛋白质名称都是标准的,所有名称要么在 UniProtKB 数据库中,要么是两种蛋白质之间的联系(即 ACACA-ACACB)。
我不确定发生了什么。有没有人有什么建议?
编辑:这是一个例子:
bioinformatics - 从蛋白质序列数据库中检索 DNA 序列?
我在 FASTA 中有 1000 多个蛋白质序列及其登录号。我想回到全基因组鸟枪法数据库并检索所有编码与我的初始序列列表中的一个相同的蛋白质的 DNA 序列。
我试过运行一个 tBlastn,每个序列的结果 <10,每个查询 1 个,e 值低于 1e-100 或 e 值为零,但我没有得到任何结果。我想自动化整个过程。
这可以通过从命令行和批处理脚本运行 blast 来完成吗?
protein-database - 相互作用蛋白数据库
我正在做一个蛋白质蛋白质相互作用网络聚类项目。为了测试结果,我从 DIP 数据库下载了数据集。每个蛋白质都有 DIP-id,我想将集群(DIP-id 作为蛋白质名称)与黄金数据集 CYC2008 进行比较,后者在复杂定义中具有通用名称/ORF 名称作为蛋白质名称。任何人都可以帮助我将 DIP-id 转换为基因名称。例如 DIP-839N 到 Taf1p 。
python - 从蛋白质数据库 (PDB) 文本文件中提取列
我想用 Python 中的 Matplotlib 制作一个绘图,因此从 PDB 文件(蛋白质数据库)中读取一些数据。我想从文件中提取每一列并将这些列存储在单独的向量中。PDB 文件由包含文本和浮点数的列组成。我对 Matplotlib 很陌生,我尝试了几种方法来提取这些列,但似乎没有任何效果。提取这些列的最佳方法是什么?我将在稍后阶段加载大量数据,所以如果方法不是太低效就好了。
PDB 文件看起来像这样: