问题标签 [biopython]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使用 BioPython 解析模棱两可的字符
我是 Python 和一般编程的新手。我已经安装了 BioPython,希望它的一些组件可以帮助我编写一个脚本。该脚本需要处理许多 xread 文件,每个文件都包含一个矩阵,我需要以多种方式对其进行切片。我希望已经存在一个序列数据类型或类(有区别吗?),它允许以非 IUPAC 格式编码的不明确字符的序列所需的奇怪方式进行索引。例如,在序列中。
字符串文字中的字符表示所表示的 DNA 序列中[01]
的单个模棱两可的字符,或者0
或。1
所以切片[-6:]
应该返回3[01]3-22
。我在 BioPython 文档中找不到任何关于此的内容,尽管我可能忽略了它。如果 BioPython 中有一些东西可以做到这一点,你能指点我看相关的文档吗?
谢谢。
module - Biopython,PYTHONPATH,寻找模块的问题
我安装了 Biopython,但我无法让计算机识别模块。例如,我在 Komodo 中创建一个文本文件,如下所示:
并在终端运行它并接收:
作为记录,我也无法以交互模式导入模块。文档指出,我可以通过导出到名为 PYTHONPATH 的环境变量(与 PATH 一样)来附加模块搜索路径,但是当我在终端中键入“env”时,我看不到这种环境变量。我是生物学家——不是计算机科学家或程序员。如果这听起来像胡说八道,请容忍我的天真。
python - Biopython 类实例 - 来自 Entrez.read 的输出:我不知道如何操作输出
我正在尝试从 Pubmed 下载一些 xml - 没有问题,Biopython 很棒。问题是我真的不知道如何操作输出。我想将大部分解析的xml放入sql数据库,但我对输出不熟悉。对于某些事情,我可以将解析后的 xml 称为字典,但对于其他事情,这似乎并不那么简单。
如果我想找到标题,我可以这样做:
但是解析出来的对象的类型是一个类:
这让我觉得一定有比将它用作字典更简单的方法。但是当我尝试时:
它不起作用。我显然可以将它用作字典,但后来我遇到了问题。
真正的问题是在像字典一样使用记录时试图从记录中获取某些信息:
这意味着我不能只是扑通一声(这是一个技术术语;)它到我的 sql 数据库中,但需要转换它:
总而言之,我很高兴 Entrez.read() 提供的信息的深度,但我不确定如何在生成的类实例中轻松使用这些信息。通常你可以做类似的事情
但它不起作用。
干杯
惠顿
biopython - 通过 biopython 连接到 Ensembl
我刚刚加入 python 和 biopython 工作,喜欢连接 Ensebml 并获取一些序列和其他数据,如 TSS、一些基因列表等。但我的问题是我似乎无法在 biopython 中找到任何方法或模块来做所以。我知道这是使用 Ensembl API 在 perl 中非常常规的事情。如果有人告诉我或将我指向一个文档以了解这些事情是如何在 biopython 中完成的,我真的很感激。谢谢
biopython - Biopython——一次读取固定数量的 seq_records
我构建了一些从 fastq 文件中检索 PHRED 分数的代码,将它们全部放入一个列表中,然后将列表传递给另一个函数。它看起来像这样:
问题是这个循环会一直持续到所有的 seq_records 都被搜索并检索到相应的 PHRED 分数。为了更加保守 RAM,我希望有一些代码一次读取较少数量的 seq_records(例如 100 个),然后将它们各自的质量分数弹出到我正在进行的 uberlist 中。然后它将从接下来的 100 个 seq_records 中获取信息并再次执行循环。我无法理解如何完成这项工作。有任何想法吗?
python - 从 python 调用 EMBOSS 程序时遇到问题
我无法通过 Python 调用名为 Sixpack 的 EMBOSS 程序(通过命令行运行)。
我通过 Windows 7、Python 3.23 版、Biopython 1.59 版、EMBOSS 6.4.0.4 版运行 Python。Sixpack 用于翻译所有六个阅读框中的 DNA 序列,并创建两个文件作为输出;识别ORF的序列文件,以及包含蛋白质序列的文件。
我可以从命令行成功调用三个必需的参数:( -sequence [input file]
, -outseq [output sequence file]
, -outfile [protein sequence file]
)。我一直在使用 subprocess 模块代替 os.system,因为我读到它更强大、更通用。
以下是我的 python 代码,它运行没有错误,但不会产生所需的输出文件。
python - Python编辑距离
我是一名分子生物学家,使用 Biopython 分析基因突变,我的问题是:
我有一个包含许多不同序列(数百万)的文件,其中大部分是重复的。我需要找到重复项并丢弃它们,为每个唯一序列保留一份副本。我打算使用模块 editdist 来计算它们之间的编辑距离,以确定哪些是重复项,但 editdist 只能处理 2 个字符串,而不是文件。
任何人都知道我如何将该模块与文件而不是字符串一起使用?
python - 用python匹配fasta文件中的头文件
我有两个文件:第一个是带有标题和序列的 fasta 文件,第二个仅由标题组成。
文件_1:
文件_2:
我想将 File_2 中的标头与 File_1 中直到第 7 个“|”之前具有相同确切字符的任何内容相匹配。
我拆分了 File_1 中的项目(标题的每个部分都被索引到一个列表中)。任何以 '>' 开头的行都被放入一个变量中:
我一直在尝试找到一种方法,可以在其中比较 File_2 中的这些相同索引以返回以下输出:
我尝试过的几种方法都使用索引,但是,我的键不是唯一的。如何获取前六个元素并将它们作为我的关键,或者有没有比我正在尝试的当前方法更好的方法?谢谢你。
biopython - biopython qblast 函数没有返回数据
我正在尝试针对 NCBI 数据库爆破一个 8-mer(长度为 8 的字符串)。但是,每当我使用 qblast 时,就匹配而言它是空的。这是我的代码:
每当我这样做时,它只会打印空列表 []。为什么会这样?任何人都可以照亮它吗?
我可以使用 NCBI 在线 BLAST 工具进行匹配,如果我使用像“SSRVQDGMGLYTARRVR”这样的更长的 kmer,我什至可以得到匹配。碰巧我搜索的所有 8-mers 都是空的。
python - 如何使用 python 或 awk 为每个字符分配值并找到平均值?
我有一个包含蛋白质序列(200 个序列)的文本文件,如下所示。
我需要为序列的每个字符提供以下值,并且必须找到每个序列的平均值。
期望的输出
如何使用 awk 或 python 做到这一点?
您的建议将不胜感激