“biopython”的相关标签问题

0 投票

1 回答

376 浏览

python - 如何使用 BioPython 解析模棱两可的字符

我是 Python 和一般编程的新手。我已经安装了 BioPython，希望它的一些组件可以帮助我编写一个脚本。该脚本需要处理许多 xread 文件，每个文件都包含一个矩阵，我需要以多种方式对其进行切片。我希望已经存在一个序列数据类型或类（有区别吗？），它允许以非 IUPAC 格式编码的不明确字符的序列所需的奇怪方式进行索引。例如，在序列中。

字符串文字中的字符表示所表示的 DNA 序列中[01]的单个模棱两可的字符，或者0或。1所以切片[-6:]应该返回3[01]3-22。我在 BioPython 文档中找不到任何关于此的内容，尽管我可能忽略了它。如果 BioPython 中有一些东西可以做到这一点，你能指点我看相关的文档吗？

谢谢。

2012-06-21T05:43:49.110

0 投票

2 回答

3227 浏览

module - Biopython，PYTHONPATH，寻找模块的问题

我安装了 Biopython，但我无法让计算机识别模块。例如，我在 Komodo 中创建一个文本文件，如下所示：

并在终端运行它并接收：

作为记录，我也无法以交互模式导入模块。文档指出，我可以通过导出到名为 PYTHONPATH 的环境变量（与 PATH 一样）来附加模块搜索路径，但是当我在终端中键入“env”时，我看不到这种环境变量。我是生物学家——不是计算机科学家或程序员。如果这听起来像胡说八道，请容忍我的天真。

module pythonpath biopython

2012-06-25T16:01:39.907

0 投票

2 回答

1972 浏览

python - Biopython 类实例 - 来自 Entrez.read 的输出：我不知道如何操作输出

我正在尝试从 Pubmed 下载一些 xml - 没有问题，Biopython 很棒。问题是我真的不知道如何操作输出。我想将大部分解析的xml放入sql数据库，但我对输出不熟悉。对于某些事情，我可以将解析后的 xml 称为字典，但对于其他事情，这似乎并不那么简单。

如果我想找到标题，我可以这样做：

但是解析出来的对象的类型是一个类：

这让我觉得一定有比将它用作字典更简单的方法。但是当我尝试时：

它不起作用。我显然可以将它用作字典，但后来我遇到了问题。

真正的问题是在像字典一样使用记录时试图从记录中获取某些信息：

这意味着我不能只是扑通一声（这是一个技术术语；）它到我的 sql 数据库中，但需要转换它：

总而言之，我很高兴 Entrez.read() 提供的信息的深度，但我不确定如何在生成的类实例中轻松使用这些信息。通常你可以做类似的事情

但它不起作用。

干杯

惠顿

python class biopython

2012-07-04T04:00:47.513

0 投票

2 回答

2699 浏览

biopython - 通过 biopython 连接到 Ensembl

我刚刚加入 python 和 biopython 工作，喜欢连接 Ensebml 并获取一些序列和其他数据，如 TSS、一些基因列表等。但我的问题是我似乎无法在 biopython 中找到任何方法或模块来做所以。我知道这是使用 Ensembl API 在 perl 中非常常规的事情。如果有人告诉我或将我指向一个文档以了解这些事情是如何在 biopython 中完成的，我真的很感激。谢谢

biopython

2012-07-04T16:30:25.073

0 投票

1 回答

119 浏览

biopython - Biopython——一次读取固定数量的 seq_records

我构建了一些从 fastq 文件中检索 PHRED 分数的代码，将它们全部放入一个列表中，然后将列表传递给另一个函数。它看起来像这样：

问题是这个循环会一直持续到所有的 seq_records 都被搜索并检索到相应的 PHRED 分数。为了更加保守 RAM，我希望有一些代码一次读取较少数量的 seq_records（例如 100 个），然后将它们各自的质量分数弹出到我正在进行的 uberlist 中。然后它将从接下来的 100 个 seq_records 中获取信息并再次执行循环。我无法理解如何完成这项工作。有任何想法吗？

biopython fastq

2012-07-05T16:46:28.590

0 投票

1 回答

698 浏览

python - 从 python 调用 EMBOSS 程序时遇到问题

我无法通过 Python 调用名为 Sixpack 的 EMBOSS 程序（通过命令行运行）。

我通过 Windows 7、Python 3.23 版、Biopython 1.59 版、EMBOSS 6.4.0.4 版运行 Python。Sixpack 用于翻译所有六个阅读框中的 DNA 序列，并创建两个文件作为输出；识别ORF的序列文件，以及包含蛋白质序列的文件。

我可以从命令行成功调用三个必需的参数：( -sequence [input file], -outseq [output sequence file], -outfile [protein sequence file])。我一直在使用 subprocess 模块代替 os.system，因为我读到它更强大、更通用。

以下是我的 python 代码，它运行没有错误，但不会产生所需的输出文件。

python subprocess biopython emboss

2012-07-09T15:47:25.773

0 投票

5 回答

1160 浏览

python - Python编辑距离

我是一名分子生物学家，使用 Biopython 分析基因突变，我的问题是：

我有一个包含许多不同序列（数百万）的文件，其中大部分是重复的。我需要找到重复项并丢弃它们，为每个唯一序列保留一份副本。我打算使用模块 editdist 来计算它们之间的编辑距离，以确定哪些是重复项，但 editdist 只能处理 2 个字符串，而不是文件。

任何人都知道我如何将该模块与文件而不是字符串一起使用？

python sequence edit distance biopython

2012-07-12T20:13:11.220

0 投票

2 回答

1216 浏览

python - 用python匹配fasta文件中的头文件

我有两个文件：第一个是带有标题和序列的 fasta 文件，第二个仅由标题组成。

文件_1：

文件_2：

我想将 File_2 中的标头与 File_1 中直到第 7 个“|”之前具有相同确切字符的任何内容相匹配。

我拆分了 File_1 中的项目（标题的每个部分都被索引到一个列表中）。任何以 '>' 开头的行都被放入一个变量中：

我一直在尝试找到一种方法，可以在其中比较 File_2 中的这些相同索引以返回以下输出：

我尝试过的几种方法都使用索引，但是，我的键不是唯一的。如何获取前六个元素并将它们作为我的关键，或者有没有比我正在尝试的当前方法更好的方法？谢谢你。

python string pattern-matching biopython

2012-07-16T19:27:44.543

0 投票

2 回答

695 浏览

biopython - biopython qblast 函数没有返回数据

我正在尝试针对 NCBI 数据库爆破一个 8-mer（长度为 8 的字符串）。但是，每当我使用 qblast 时，就匹配而言它是空的。这是我的代码：

每当我这样做时，它只会打印空列表 []。为什么会这样？任何人都可以照亮它吗？

我可以使用 NCBI 在线 BLAST 工具进行匹配，如果我使用像“SSRVQDGMGLYTARRVR”这样的更长的 kmer，我什至可以得到匹配。碰巧我搜索的所有 8-mers 都是空的。

biopython

2012-07-17T19:27:17.290

0 投票

4 回答

238 浏览

python - 如何使用 python 或 awk 为每个字符分配值并找到平均值？

我有一个包含蛋白质序列（200 个序列）的文本文件，如下所示。

我需要为序列的每个字符提供以下值，并且必须找到每个序列的平均值。

期望的输出

如何使用 awk 或 python 做到这一点？

您的建议将不胜感激

python awk bioinformatics biopython

2012-07-23T06:44:34.493

问题标签 [biopython]

Reference