问题标签 [biopython]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
376 浏览

python - 如何使用 BioPython 解析模棱两可的字符

我是 Python 和一般编程的新手。我已经安装了 BioPython,希望它的一些组件可以帮助我编写一个脚本。该脚本需要处理许多 xread 文件,每个文件都包含一个矩阵,我需要以多种方式对其进行切片。我希望已经存在一个序列数据类型或类(有区别吗?),它允许以非 IUPAC 格式编码的不明确字符的序列所需的奇怪方式进行索引。例如,在序列中。

字符串文字中的字符表示所表示的 DNA 序列中[01]的单个模棱两可的字符,或者0或。1所以切片[-6:]应该返回3[01]3-22。我在 BioPython 文档中找不到任何关于此的内容,尽管我可能忽略了它。如果 BioPython 中有一些东西可以做到这一点,你能指点我看相关的文档吗?

谢谢。

0 投票
2 回答
3227 浏览

module - Biopython,PYTHONPATH,寻找模块的问题

我安装了 Biopython,但我无法让计算机识别模块。例如,我在 Komodo 中创建一个文本文件,如下所示:

并在终端运行它并接收:

作为记录,我也无法以交互模式导入模块。文档指出,我可以通过导出到名为 PYTHONPATH 的环境变量(与 PATH 一样)来附加模块搜索路径,但是当我在终端中键入“env”时,我看不到这种环境变量。我是生物学家——不是计算机科学家或程序员。如果这听起来像胡说八道,请容忍我的天真。

0 投票
2 回答
1972 浏览

python - Biopython 类实例 - 来自 Entrez.read 的输出:我不知道如何操作输出

我正在尝试从 Pubmed 下载一些 xml - 没有问题,Biopython 很棒。问题是我真的不知道如何操作输出。我想将大部分解析的xml放入sql数据库,但我对输出不熟悉。对于某些事情,我可以将解析后的 xml 称为字典,但对于其他事情,这似乎并不那么简单。

如果我想找到标题,我可以这样做:

但是解析出来的对象的类型是一个类:

这让我觉得一定有比将它用作字典更简单的方法。但是当我尝试时:

它不起作用。我显然可以将它用作字典,但后来我遇到了问题。

真正的问题是在像字典一样使用记录时试图从记录中获取某些信息:

这意味着我不能只是扑通一声(这是一个技术术语;)它到我的 sql 数据库中,但需要转换它:

总而言之,我很高兴 Entrez.read() 提供的信息的深度,但我不确定如何在生成的类实例中轻松使用这些信息。通常你可以做类似的事情

但它不起作用。

干杯

惠顿

0 投票
2 回答
2699 浏览

biopython - 通过 biopython 连接到 Ensembl

我刚刚加入 python 和 biopython 工作,喜欢连接 Ensebml 并获取一些序列和其他数据,如 TSS、一些基因列表等。但我的问题是我似乎无法在 biopython 中找到任何方法或模块来做所以。我知道这是使用 Ensembl API 在 perl 中非常常规的事情。如果有人告诉我或将我指向一个文档以了解这些事情是如何在 biopython 中完成的,我真的很感激。谢谢

0 投票
1 回答
119 浏览

biopython - Biopython——一次读取固定数量的 seq_records

我构建了一些从 fastq 文件中检索 PHRED 分数的代码,将它们全部放入一个列表中,然后将列表传递给另一个函数。它看起来像这样:

问题是这个循环会一直持续到所有的 seq_records 都被搜索并检索到相应的 PHRED 分数。为了更加保守 RAM,我希望有一些代码一次读取较少数量的 seq_records(例如 100 个),然后将它们各自的质量分数弹出到我正在进行的 uberlist 中。然后它将从接下来的 100 个 seq_records 中获取信息并再次执行循环。我无法理解如何完成这项工作。有任何想法吗?

0 投票
1 回答
698 浏览

python - 从 python 调用 EMBOSS 程序时遇到问题

我无法通过 Python 调用名为 Sixpack 的 EMBOSS 程序(通过命令行运行)。

我通过 Windows 7、Python 3.23 版、Biopython 1.59 版、EMBOSS 6.4.0.4 版运行 Python。Sixpack 用于翻译所有六个阅读框中的 DNA 序列,并创建两个文件作为输出;识别ORF的序列文件,以及包含蛋白质序列的文件。

我可以从命令行成功调用三个必需的参数:( -sequence [input file], -outseq [output sequence file], -outfile [protein sequence file])。我一直在使用 subprocess 模块代替 os.system,因为我读到它更强大、更通用。

以下是我的 python 代码,它运行没有错误,但不会产生所需的输出文件。

0 投票
5 回答
1160 浏览

python - Python编辑距离

我是一名分子生物学家,使用 Biopython 分析基因突变,我的问题是:

我有一个包含许多不同序列(数百万)的文件,其中大部分是重复的。我需要找到重复项并丢弃它们,为每个唯一序列保留一份副本。我打算使用模块 editdist 来计算它们之间的编辑距离,以确定哪些是重复项,但 editdist 只能处理 2 个字符串,而不是文件。

任何人都知道我如何将该模块与文件而不是字符串一起使用?

0 投票
2 回答
1216 浏览

python - 用python匹配fasta文件中的头文件

我有两个文件:第一个是带有标题和序列的 fasta 文件,第二个仅由标题组成。

文件_1:

文件_2:

我想将 File_2 中的标头与 File_1 中直到第 7 个“|”之前具有相同确切字符的任何内容相匹配。

我拆分了 File_1 中的项目(标题的每个部分都被索引到一个列表中)。任何以 '>' 开头的行都被放入一个变量中:

我一直在尝试找到一种方法,可以在其中比较 File_2 中的这些相同索引以返回以下输出:

我尝试过的几种方法都使用索引,但是,我的键不是唯一的。如何获取前六个元素并将它们作为我的关键,或者有没有比我正在尝试的当前方法更好的方法?谢谢你。

0 投票
2 回答
695 浏览

biopython - biopython qblast 函数没有返回数据

我正在尝试针对 NCBI 数据库爆破一个 8-mer(长度为 8 的字符串)。但是,每当我使用 qblast 时,就匹配而言它是空的。这是我的代码:

每当我这样做时,它只会打印空列表 []。为什么会这样?任何人都可以照亮它吗?

我可以使用 NCBI 在线 BLAST 工具进行匹配,如果我使用像“SSRVQDGMGLYTARRVR”这样的更长的 kmer,我什至可以得到匹配。碰巧我搜索的所有 8-mers 都是空的。

0 投票
4 回答
238 浏览

python - 如何使用 python 或 awk 为每个字符分配值并找到平均值?

我有一个包含蛋白质序列(200 个序列)的文本文件,如下所示。

我需要为序列的每个字符提供以下值,并且必须找到每个序列的平均值。

期望的输出

如何使用 awk 或 python 做到这一点?

您的建议将不胜感激