问题标签 [protein-database]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - BioPython:残基大小与位置不同
我目前正在使用 PDB 数据集,我对残基的大小(每个残基的原子数)感兴趣。我意识到原子数 -len(residue.child_list) - 与不同蛋白质中的残基不同,即使是相同的残基。例如:残基“LEU”在一种蛋白质中有 8 个原子,但在另一种蛋白质中有 19 个!
我的猜测是 PDB 或 PDBParser() 中的错误,但差异很大!
例如在分子 3OQ2 的情况下:
但
因此,即使在单个分子内,原子数也存在差异。我想知道这在生物学上是否正常,或者是否有问题。谢谢你。
强文本
linux - 在 pdb 文件的每 2-3-4 行使用 awk 和 sed 替换文本
我有一个大约 200 000 行的 pdb 文本文件。每行看起来像这样:
我必须将 C1 的所有第一个 CT 和 C2 的第二个 CT 更改为相同的 F1、F2、F3 和 HC 到 H1、H2。
是否可以在一个小脚本中使用 awk 和 sed 更改它们?每个 C1-C2 和 F1、F2、F3 都是同一分子(三氟乙醇 - TFE)的一部分,但有许多 TFE 分子需要定义。
所以我希望它看起来像这样:
谢谢
bioinformatics - BLAST: blastpgp not producing an output file, unsure if using database flag correctly
Question 1:
I'm running the following:
where protein.fasta is a fasta file containing a single protein sequence. This produces no output and the -o file is empty.
Question 2:
I was able to successfully use:
to create database files. However, this produced multiple files, .phr, .pin, .psd, .psi, .psq. Which one of these should I pass with the -d flag to use my own database?
Thank you!
regex - 使用 grep 查找两个字符串中的任何一个而不更改行的顺序?
我确定有人问过这个问题,但我找不到它,所以我为冗余道歉。
我想使用 grep 或 egrep 来查找其中包含“ P ”或“ CA ”的每一行并将它们通过管道传输到一个新文件。我可以使用以下方法轻松地做到这一点:
或者
我是正则表达式的新手,所以我不确定or
.
更新: 输出行的顺序很重要,即我不希望输出按照它匹配的字符串对行进行排序。以下是一个文件前 8 行的示例:
我希望这个例子的结果文件是:
biopython - biopython 的 DSSP 类是否给出了氨基酸的相对溶剂可及性值?
目前,我想使用 biopython 的 DSSP 模块获得蛋白质中氨基酸的相对溶剂可及性。我不确定输出是否具有 rsa(相对溶剂可及性)或是否需要计算?任何帮助,将不胜感激。谢谢。
bash - 我有一个蛋白质序列文件,我想使用 sed 或 grep 计算其中的三聚体
我有以下格式的蛋白质序列文件
序列是任意长度的字符串,但只允许包含 20 个字母,即
1 条记录的示例
我想创建以下格式的 csv 文件
这是我目前正在尝试的:
在这段代码中,我将单个记录存储在一个不好的不同文件中。此外,该程序在 12 小时内非常慢,在 50 万条记录中只有 12000 条记录被访问。
r - 从单个 PDB 文件中提取多个蛋白质链
我有一个包含多个链的 PDB 文件,尽管没有链 ID。我想使用 R 来分配 chainid,以便我可以分析单个蛋白质链并在每个蛋白质链中找到特定位点。
我目前正在使用 Rpdb 提取文件和示例数据(单个 pdb 文件中每个链的前几行)如下。
列名由 Rpdb 添加为(注意:chainid、insert 和 segid 没有值):
有谁知道添加上述chainid的方法?谢谢!
python - 在python中使用键对数据进行排序
我有一个数据格式,如:
从这里开始,我想根据col[5]
(从 0 开始的列数)和col[2]
. 如果或恰好只有一次value
,则要丢弃数据集。但是对于if和both 存在的每个值,它将被保留。
过滤后的所需数据: col[5]
OE1
OE2
col[5]
OE1
OE2
我试过使用search_string
像:
这有助于col
在搜索OE1
or时保持其他相似OE2
,但如果其中一个(或两者)丢失,则无助于过滤和消除。
任何想法在这里都会非常好。
python - 如何在 pdb 中添加链 ID
通过使用 biopython 库,我想在我的 pdb 文件中添加链 ID。我在用着
但我得到了这个错误:
我试图更改 th child.dict 中的键,但我得到了另一个错误:
如何添加链 ID?
bioinformatics - 查看蛋白质交互网络上聚类算法的结果
我正在从事一个涉及蛋白质相互作用网络聚类的项目,已经在相互作用蛋白质的图上制作了几种聚类算法,我对现在如何查看创建的聚类是否好感到有些困惑。
将其置于上下文中,蛋白质相互作用网络代表蛋白质之间的成对连接,并隔离参与相同生物过程或共同执行特定功能的相互作用蛋白质组。这很重要,因为许多蛋白质和相互作用是未标记的,因此如果某个特定的许多标记蛋白质在一个簇中,则可以推断它们的功能。
与标记数据集可以显示或不显示正确分组数量的典型监督机器学习任务不同,蛋白质的良好聚类及其相互作用没有先例,假设所有蛋白质都在一个聚类中的聚类与其中的聚类一样好所有蛋白质都在一个簇中(尽管这没有信息意义)。当然也没有用于距离计算的特征向量,只有一种蛋白质是否与另一种蛋白质相互作用的二进制信息,所以这非常困难。
这个问题完全是探索性的,很难看出聚类是重要的还是虚假的。
大多数学术论文使用聚类分析技术来查看聚类和算法的好坏。IE。它们是否对边缘删除或节点删除、集群相关性等具有鲁棒性。我想看看是否有任何信息可以使用蛋白质数据库捞出,比如输入大量的交互(来自一个集群)并查看标记的那些倾向于参与相同的代谢过程。如果在一个代谢过程中涉及大量蛋白质,则可以推测未标记的蛋白质可能涉及类似的过程或功能,或者类似地可能是或不是蛋白质结构域的一部分。
我刚刚开始深入研究生物信息学和一般研究,所以很有可能以前已经做过,而且我还没有足够广泛地环顾四周。如果是这种情况,我将不胜感激链接。我将不胜感激任何可能的帮助,或者关于如何思考这个问题的想法。