问题标签 [protein-database]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
56 浏览

bioinformatics - 从蛋白质数据库中提取高度相似的蛋白质

如何从 PDB 数据库中获取高度相似的结构?

假设 98% 或更高的序列相似结构?

0 投票
1 回答
1081 浏览

python - Ncbi 蛋白质数据库,如何从特定的生物项目中获取蛋白质序列(python 脚本)

我正在尝试从特定生物项目的 NCBI 数据库中检索编码蛋白序列。这可以使用网络浏览器以某种方式实现。例如,您可以找到您感兴趣的特定生物项目并“点击”相关蛋白质: http ://www.ncbi.nlm.nih.gov/genome/proteins/994?project_id=207383 ,您可以查看所有来自BioProject“207383”和基因组“994”的蛋白质。我想使用 python 自动获取这些蛋白质序列。

为了做到这一点,我使用了 NCBI 的“E-utilities”。主要是“elink.fcgi?” 它允许从数据库的特定 UID(比如说 BioProject UID)链接获取数据库的所有 UID(比如说“蛋白质”)。所以这是我的 entrez URL 请求:
http
://eutils.ncbi.nlm.nih.gov/entrez/eutils/elink.fcgi?dbfrom=bioproject&linkname=bioproject_protein&id=207383 然后我获得了一个蛋白质 UID 列表,这很好,因为我需要那些,用于我对 efetch.fcgi 的下一个请求?“电子公用事业”。然后这个请求将允许我得到我需要的一切。

好的,一切都很好,一切都很好,但是,我从“elink.fcgi”中获得的蛋白质 UID 的数量?请求与基于手动网络浏览器的搜索显示的蛋白质数量不同。更糟糕的是,在询问这些问题的根源时,您会看到缺失的序列或更高分类群的序列(它们也没有以任何方式与生物项目相关联)。

这是一个例子:这篇文章的第一个链接显示了一些 4014 序列,当 python 请求给我 3957 蛋白质 UID 时。

我尝试了一些其他方法,例如从分类 UID 中获取所有蛋白质 UID。这通常会给你比想要的更多的序列,因为有不同的生物项目(也给你一些不同名称和相同 Fasta 的双打)。

有没有办法做到这一点,一个可以工作的?

0 投票
1 回答
1850 浏览

python - 在 BioPython 中使用 Entrez 从 GenBank 中检索和解析蛋白质序列

很快就会很明显,我是 Python 和一般编码的新手。我有一个存储为文本文件的基因 ID 列表,我想使用 Entrez 函数搜索 GenBank 数据库并检索与 ID 对应的蛋白质序列。理想情况下,我希望最终产品是 FASTA 文件,因为此时我真的只对序列感兴趣。使用 Biopython 教程(http://biopython.org/DIST/docs/tutorial/Tutorial.html#sec15),我想出了这个:

但是当我运行它时,我得到了错误:

每次我使用 rettype = 'fasta' 时都会遇到类似的错误。当我使用 rettype = 'gb' 时,我没有收到此错误,但我真的很想得到一个 fasta 文件。有人有什么建议吗?谢谢!

编辑:对不起,我忽略了输入文件的内容。在完美的世界中,代码将接受如下输入格式:

但我也尝试过使用只有基因 ID (GIs) 的简化版本,如下所示:

0 投票
1 回答
1028 浏览

python - Pymol不输出图像

我正在尝试使用 pymol 从 pdb 文件中绘制蛋白质结构。

但是,当我尝试运行下面的脚本时,会打开一个 pymol 窗口,但它只是一片漆黑。此外,奇怪的是,pdb 文件被输出到 shell。

这是我的代码:

有谁知道这里发生了什么?

.png 文件“my_pdb”被转储到工作目录中,但也只是黑色的。

0 投票
1 回答
87 浏览

python - 如何在不事先打开文件的情况下调用编写 python 函数?

我正在使用 python2.7,并编写了一些用于分析蛋白质结构文件的函数,我将其保存为 pdbtools.py 例如,一个函数是 getprot(),它可以让我从数据库中提取蛋白质结构。

在我打开并编辑文件并从 python 中保存它之后,我可以使用所有的函数定义。但是,当我启动一个新的 python 会话时,它会忘记我编写的所有函数,所以我必须 %edit pdbtools.pdb,保存它,然后我才能运行所有内容。

这里发生了什么?我如何使用我编写的函数?

0 投票
2 回答
2948 浏览

biopython - 如何从 PDB 文件中提取所有链?

我关注此页面 如何从 PDB 文件中提取链?但我无法找到我想要的完整解决方案。这是我的问题:

在不给出特定链 id 的情况下,我想提取 pdb 中的所有链 id 并将这些链 id 写入单独的 pdb 文件中。你能告诉我如何提取pdb中存在的所有链吗?例如,如果 pdb 包含两个链,我想分别编写所有两个链。

6CHY - 它有两条链 A 和 B。我想分别在 6CHY_A.pdb 中编写 A 链,在 6CHY_B 中编写 B 链。

0 投票
2 回答
2622 浏览

python - 从 PDB 中去除杂原子

必须删除 pdb 文件中的杂原子。这是代码,但它不适用于我的测试 PDB 1C4R。

有什么建议吗?

0 投票
1 回答
1649 浏览

python - 使用 Biopython 库从 PDB 中删除残基

使用 biopython 库,我想删除列表中列出的残基,如下所示。这个线程(http://pelican.rsvs.ulaval.ca/mediawiki/index.php/Manipulating_PDB_files_using_BioPython)提供了一个去除残留物的例子。我有以下代码来去除残留物

但是这段代码不起作用并引发了错误

这段代码有什么问题?

或者,我可以使用 accept_residue() 并将其写入 PDB。我不想这样做,因为我想在内存中进行进一步处理。

0 投票
3 回答
83 浏览

perl - 对两个数组中的每个变量组合执行函数

我正在尝试获取一组数据并用另一组数据减去该数据中的每个值。

例如:

(1 - (1 .. 5))所以我应该得到类似的东西(2 - (1..5))等等。

我目前有:

我试图将每个值$protein_coords->[0]->[$ticker]->{'z'}减去$lipid_coords->[1]->[$ticker]->{'z'}.

我的总体目标是(z2-z1)^2在方程式中找到d = sqrt((x2-x1)^2+(y2-y1)^2-(z2-z1)^2)。我认为如果我能做到这一点,那么我也可以为 X 和 Y 做到这一点。从技术上讲,我试图找到 PDB 文件中每个原子与同一 PDB 中每个脂质原子之间的距离,并打印距离小于 5A 的 ResID。

0 投票
3 回答
1678 浏览

python - 谁能帮我理解和解决这个错误?

我想绘制泛素蛋白的alpha-cabonnitrogen距分布。所以我从 RCSB 网站下载了 1UBQ.pdb。现在使用biopython,我试图找到所有债券之间的alpha-cabon(CA)距离nitrogen(N)

我试过做如下代码:

我在文件'file_ubq'中得到了输出,如下所示:

但除此之外,我也遇到了如下错误:

谁能帮我理解和解决这个错误?