0

我有一个 UniprotID 列表,其中包含相应的感兴趣残基(例如 Q7TQ48_S 442)。我需要检索蛋白质序列内特定位点周围的 +/-6 个残基(在示例中,我需要的序列是 DIEAEA S EERQQE)。您能否建议一种方法来使用 Python、R 或已经可用的网络工具对 ID 列表 + 感兴趣的残基进行处理?谢谢, 伊曼纽尔

4

1 回答 1

0

如果我从https://www.uniprot.org/uploadlists/或通过上传文件将蛋白质 ID 列表输入 UniProt ,我会得到一个结果表。在表格的顶部,有一个选项允许您选择列 - 一个选项是肽序列。(到目前为止不需要编程 - 只需上传您感兴趣的 UID 列表)。

现在,要提取特定序列,这可以在 R 中使用substr命令完成。在这里,我们想从任一端加/减 6:

len13seq <- with(uniprot_data, substr(peptide_sequence, start = ind - 6, stop = ind + 6 ))

在你的例子中,ind = 442.

要完成这项工作,您需要

  1. 将您的标签分成两列(+?) - UniprotID 和站点索引。如果您需要氨基酸用于以后的分析,您也可以将其包括在内。
  2. 创建一个仅包含输入 UniProt 数据库的 UniProtID 的文件。
  3. 自定义显示的列,确保获得序列。
  4. 下载结果并将其读入 R。
  5. 将原始数据框(带有站点索引)与下载的结果合并。
  6. 在您的兴趣点附近生成序列。

可以完全在 R 中执行此操作 - 我曾一度这样做,但我不确定您是否需要它,除非您需要将整个事情自动化。如果这是您需要的,我建议您查看https://www.bioconductor.org/packages/3.7/bioc/html/UniProt.ws.html。我不经常使用 Bioconductor,所以我对包装不熟悉。当我以前使用 R 获取 UniProt 数据时,我所追求的内容在表格输出中不可用,我不得不修改我的代码来获取我所追求的数据。希望 Bioconductor 解决方案比我做的更容易。

于 2018-04-14T03:47:46.013 回答