问题标签 [protein-database]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
296 浏览

python - 从哪里可以下载 *.mat 格式的 RS126 蛋白质数据集?

我一直在从事蛋白质二级结构预测项目。我无法在线找到 RS 126 数据集。我在那个数据库中找到了一个蛋白质列表。在对它们进行 PSI BLAST 搜索并采用 *.mat(MATLAB 数据集)格式后,我正在寻找相同的蛋白质。

谢谢!

0 投票
1 回答
3013 浏览

python - Biopython PDB:计算原子和点之间的距离

使用典型的 pdb 文件,我能够使用类似于 Biopython 文档中介绍的方法来计算结构中两个原子之间的距离。此处显示:

Biopython 中是否有一种方法可以计算从原子到具有 xyz 坐标的固定点的距离?如果不是 Biopython,解决这个问题的最佳方法是什么?谢谢。

0 投票
4 回答
8141 浏览

python - 使用 Python 正则表达式在模式内剪切

目标:我正在尝试在 Python RegEx 中执行剪切,其中 split 并不能完全满足我的要求。我需要在一个模式内剪切,但在字符之间剪切。

我在找什么:

我需要在字符串中识别下面的模式,并在管道的位置拆分字符串。管道实际上不在字符串中,它只是显示我想要拆分的位置。

图案:CDE|FG

细绳:ABCDEFGHIJKLMNOCDEFGZYPE

结果:['ABCDE', 'FGHIJKLMNOCDE', 'FGZYPE']

我试过的:

我似乎使用带括号的拆分很接近,但它不会像我需要的那样将搜索模式附加到结果中。

re.split('CDE()FG', 'ABCDEFGHIJKLMNOCDEFGZYPE')

给,

['AB', 'HIJKLMNO', 'ZYPE']

当我真正需要的时候,

['ABCDE', 'FGHIJKLMNOCDE', 'FGZYPE']

动机:

使用 RegEx 进行练习,并想看看我是否可以使用 RegEx 制作一个脚本,该脚本可以预测使用特定蛋白酶消化蛋白质的片段。

0 投票
1 回答
57 浏览

java - 如何在 BioJava 中使用 mmCIF 格式而不是 PDB?

我有一个小问题...

我知道要使用 BioJava 下载 PDB 结构,我应该使用

我应该怎么做才能使用 mmCIF 文件?

0 投票
1 回答
2386 浏览

python - 如何在 Python 中为 3D 图像实现 SIFT(尺度不变特征变换)?

我看到了许多仅用于二维图像的 SIFT 示例:http: //docs.opencv.org/3.1.0/da/df5/tutorial_py_sift_intro.html。但是在 Wikipedia 中写到 SIFT 也可以应用于“3D 建模”。请帮我在 Python 中找到 3 维图像的示例,或者提供您自己的示例。我需要找到给定蛋白质中氨基酸的位置(creo EM 扫描),并且我想将 SIFT 的精度与其他启发式计算进行比较。

0 投票
1 回答
170 浏览

python - 用 Python 提取 Fasta Moonlight 蛋白质序列

我想通过 Python 从 Moonlighting Protein Database (www.moonlightingproteins.org/results.php?search_text=) 中提取具有氨基酸序列的 FASTA 文件,因为这是一个迭代过程,我更愿意学习如何编程而不是手动执行,b/c 加油,我们在 2016 年。问题是我不知道如何编写代码,因为我是新手程序员 :( 。基本的伪代码是:

提前致谢!

0 投票
1 回答
40 浏览

math - 最长可能字符串的长度不包含重复的 3-mer

我试图找到不包含重复 3-mer 的最长可能连续数字字符串的长度。

这是一个生物信息学问题,我正在为蛋白质序列排序。

基本上,类似的东西0102340109不起作用,因为010重复。

但是类似的东西是0002223589765有效的,因为你找不到任何重复的 3 位数字。

我需要找到最长的序列,我有点卡住了,一无所知。

0 投票
1 回答
263 浏览

dictionary - 来自 pdb 文件的字典键

我正在尝试浏览一个 .pdb 文件,计算蛋白质复合物链 A 和 B 上不同残基的 α 碳原子之间的距离,然后将距离连同链标识符和残基编号一起存储在字典中。

例如,如果在链 A 上的残基 100 上发现第一个 α 碳(“CA”),并且它所结合的在链 BI 上的残基 123 上,我希望我的字典看起来像 d={(A, 100) :[B, 123, distance_between_atoms]}

它已经运行程序很长时间了,我不得不中止运行(我在某处做了一个无限循环吗??)

我也试图这样做:

但它以以下格式打印有关残留物的信息:

它没有打印与距离相关的任何内容。

非常感谢,我希望一切都清楚。

0 投票
2 回答
231 浏览

python - 氨基酸结合位点发现,蛋白质数据库

我试图找出属于两个不同链的两个原子是否会被视为“绑定”。这是基于这样一个事实,即如果距离(欧几里德,可以通过给定的 x、y、z 坐标找到)小于两个原子的范德华力加上 0.5A,则认为它是束缚的。问题是我不明白如何计算每个原子的范德华。因为在 PDB 中,原子名称类似于 CB1、CA 等,而不是单个原子。例如,我知道 N 的 Waals 半径。我可以编写代码来计算原子之间的原子距离,但我没有做范德华部分,这是必不可少的。这是我为从两个链和 PDB 链接中提取信息而编写的代码:

http://www.rcsb.org/pdb/explore.do?structureId=3KUD

我可以在这两个链之间创建 for 循环并比较距离,只要我知道如何计算两个可能相互作用的原子之间的范德华半径。

编辑:我决定继续前进,假设每个原子都是第一个字母,因此 CB、OG1 分别是碳和氧,并且将采用它们的范德华值。尽管如此,我仍然在努力编写代码以在两个链之间创建循环并以 if 'vanderWaalsOfatomOfChainA + vanderWaalsOfatomOfChainB + 0.5' > '他们的距离基于欧几里得公式'的形式计算距离:等等。

编辑:我设法将范德华半径添加到 Chain_A 和 Chain_B 中的每个列表中,这是代码:

但我所需要的只是找出如何为两条链创建一个 for 循环。我的意思是我必须比较 A 和 B 的所有原子。 12. 每个列表中的槽给出范德华半径,我需要计算每个 A 列表的第 12 个加上每个 B 列表的第 12 个加上 0.5 并将其与欧几里得公式!

最终编辑:写了这段代码,但它不起作用!基于这个想法,我必须将Chain_A的每个元素与Chain_B进行比较。

0 投票
0 回答
333 浏览

c - 如何使用 C 从 PDB 文件中读取特定的原子坐标

我试图检索具有 THR、PHE、TYR、TRP 及其原子坐标的记录以进行进一步处理。但是,pdb 文件中似乎有很多不可见的 ascii 字符,这些字符搞砸了一切。如何摆脱这个?