问题标签 [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - 从蛋白质数据库中提取高度相似的蛋白质
如何从 PDB 数据库中获取高度相似的结构?
假设 98% 或更高的序列相似结构?
python - Ncbi 蛋白质数据库,如何从特定的生物项目中获取蛋白质序列(python 脚本)
我正在尝试从特定生物项目的 NCBI 数据库中检索编码蛋白序列。这可以使用网络浏览器以某种方式实现。例如,您可以找到您感兴趣的特定生物项目并“点击”相关蛋白质: http ://www.ncbi.nlm.nih.gov/genome/proteins/994?project_id=207383 ,您可以查看所有来自BioProject“207383”和基因组“994”的蛋白质。我想使用 python 自动获取这些蛋白质序列。
为了做到这一点,我使用了 NCBI 的“E-utilities”。主要是“elink.fcgi?” 它允许从数据库的特定 UID(比如说 BioProject UID)链接获取数据库的所有 UID(比如说“蛋白质”)。所以这是我的 entrez URL 请求:
http
://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=bioproject&linkname=bioproject_protein&id=207383
然后我获得了一个蛋白质 UID 列表,这很好,因为我需要那些,用于我对 efetch.fcgi 的下一个请求?“电子公用事业”。然后这个请求将允许我得到我需要的一切。
好的,一切都很好,一切都很好,但是,我从“elink.fcgi”中获得的蛋白质 UID 的数量?请求与基于手动网络浏览器的搜索显示的蛋白质数量不同。更糟糕的是,在询问这些问题的根源时,您会看到缺失的序列或更高分类群的序列(它们也没有以任何方式与生物项目相关联)。
这是一个例子:这篇文章的第一个链接显示了一些 4014 序列,当 python 请求给我 3957 蛋白质 UID 时。
我尝试了一些其他方法,例如从分类 UID 中获取所有蛋白质 UID。这通常会给你比想要的更多的序列,因为有不同的生物项目(也给你一些不同名称和相同 Fasta 的双打)。
有没有办法做到这一点,一个可以工作的?
python - 在 BioPython 中使用 Entrez 从 GenBank 中检索和解析蛋白质序列
很快就会很明显,我是 Python 和一般编码的新手。我有一个存储为文本文件的基因 ID 列表,我想使用 Entrez 函数搜索 GenBank 数据库并检索与 ID 对应的蛋白质序列。理想情况下,我希望最终产品是 FASTA 文件,因为此时我真的只对序列感兴趣。使用 Biopython 教程(http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec15),我想出了这个:
但是当我运行它时,我得到了错误:
每次我使用 rettype = 'fasta' 时都会遇到类似的错误。当我使用 rettype = 'gb' 时,我没有收到此错误,但我真的很想得到一个 fasta 文件。有人有什么建议吗?谢谢!
编辑:对不起,我忽略了输入文件的内容。在完美的世界中,代码将接受如下输入格式:
但我也尝试过使用只有基因 ID (GIs) 的简化版本,如下所示:
python - Pymol不输出图像
我正在尝试使用 pymol 从 pdb 文件中绘制蛋白质结构。
但是,当我尝试运行下面的脚本时,会打开一个 pymol 窗口,但它只是一片漆黑。此外,奇怪的是,pdb 文件被输出到 shell。
这是我的代码:
有谁知道这里发生了什么?
.png 文件“my_pdb”被转储到工作目录中,但也只是黑色的。
python - 如何在不事先打开文件的情况下调用编写 python 函数?
我正在使用 python2.7,并编写了一些用于分析蛋白质结构文件的函数,我将其保存为 pdbtools.py 例如,一个函数是 getprot(),它可以让我从数据库中提取蛋白质结构。
在我打开并编辑文件并从 python 中保存它之后,我可以使用所有的函数定义。但是,当我启动一个新的 python 会话时,它会忘记我编写的所有函数,所以我必须 %edit pdbtools.pdb,保存它,然后我才能运行所有内容。
这里发生了什么?我如何使用我编写的函数?
biopython - 如何从 PDB 文件中提取所有链?
我关注此页面 如何从 PDB 文件中提取链?但我无法找到我想要的完整解决方案。这是我的问题:
在不给出特定链 id 的情况下,我想提取 pdb 中的所有链 id 并将这些链 id 写入单独的 pdb 文件中。你能告诉我如何提取pdb中存在的所有链吗?例如,如果 pdb 包含两个链,我想分别编写所有两个链。
6CHY - 它有两条链 A 和 B。我想分别在 6CHY_A.pdb 中编写 A 链,在 6CHY_B 中编写 B 链。
python - 从 PDB 中去除杂原子
必须删除 pdb 文件中的杂原子。这是代码,但它不适用于我的测试 PDB 1C4R。
有什么建议吗?
python - 使用 Biopython 库从 PDB 中删除残基
使用 biopython 库,我想删除列表中列出的残基,如下所示。这个线程(http://pelican.rsvs.ulaval.ca/mediawiki/index.php/Manipulating_PDB_files_using_BioPython)提供了一个去除残留物的例子。我有以下代码来去除残留物
但是这段代码不起作用并引发了错误
这段代码有什么问题?
或者,我可以使用 accept_residue() 并将其写入 PDB。我不想这样做,因为我想在内存中进行进一步处理。
perl - 对两个数组中的每个变量组合执行函数
我正在尝试获取一组数据并用另一组数据减去该数据中的每个值。
例如:
(1 - (1 .. 5))
所以我应该得到类似的东西(2 - (1..5))
等等。
我目前有:
我试图将每个值$protein_coords->[0]->[$ticker]->{'z'}
减去$lipid_coords->[1]->[$ticker]->{'z'}
.
我的总体目标是(z2-z1)^2
在方程式中找到d = sqrt((x2-x1)^2+(y2-y1)^2-(z2-z1)^2)
。我认为如果我能做到这一点,那么我也可以为 X 和 Y 做到这一点。从技术上讲,我试图找到 PDB 文件中每个原子与同一 PDB 中每个脂质原子之间的距离,并打印距离小于 5A 的 ResID。
python - 谁能帮我理解和解决这个错误?
我想绘制泛素蛋白的alpha-cabon
键nitrogen
距分布。所以我从 RCSB 网站下载了 1UBQ.pdb。现在使用biopython
,我试图找到所有债券之间的alpha-cabon(CA)
距离nitrogen(N)
。
我试过做如下代码:
我在文件'file_ubq'中得到了输出,如下所示:
但除此之外,我也遇到了如下错误:
谁能帮我理解和解决这个错误?