问题标签 [genbank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
206 浏览

bioperl - BioPerl:提取 CDS 错误

我正在尝试使用 BioPerl 从 GenBank 文件中提取 CDS 和相应的氨基酸序列。脚本如下所示:

}

我收到错误消息:Filehandle GEN1 opens only for input at /Library/Perl/5.12/Bio/Root/IO.pm line 533, line 148。

请帮我解决这个问题。

提前致谢

0 投票
1 回答
156 浏览

python - 在 Python (x, y) 中使用产量将 GenBank 解析为 FASTA

现在我试图定义和记录我自己的函数来做这件事,但我在测试代码时遇到了问题,我实际上不知道它是否正确。我用 BioPython、re 或其他方法找到了一些解决方案,但我真的很想用产量来完成这项工作。

0 投票
1 回答
2238 浏览

python - 给定 Biopython 的 GenBank 登录码,如何获得科学名称?

有人知道我如何仅使用 GenBank 代码登录和 biopython 从 GenBank 中的数据中获取科学名称(或所有特征)。例如:

或者好吧:

谢谢大家 !=)

0 投票
1 回答
2524 浏览

biopython - 将 FASTA 转换为 GenBank

有没有办法使用 BioPython 将 FASTA 文件转换为 Genbank 格式?关于如何从 Genbank 转换为 FASTA 有很多答案,但反之则不然。

0 投票
1 回答
68 浏览

performance - 改进 genbank 功能添加

我正在尝试使用 biopython 向 genbank 文件添加超过 70000 个新功能。

我有这个代码:

结果只是一个列表,其中包含我需要添加到原始 gbk 文件中的每个功能的开始和结束。

这个解决方案对我的电脑来说非常昂贵,我不知道如何提高性能。有什么好主意吗?

0 投票
1 回答
236 浏览

python - .fasta 和 .genbank 格式之间的文件转换

我必须创建两个函数,它们应该允许我打开.genbank文件并将它们转换为.fasta文件,反之亦然。我目前拥有的是:

它也可能不正确,但我不知道该怎么做。

0 投票
1 回答
129 浏览

python - 使用 biopython 下载 genbank 文件时出现 socket.gaierror

我想使用 Biopython 和登录号列表从 NCBI 下载 genbank 文件(请注意,我使用电子邮件地址作为参数调用脚本,例如 python scriptName.py emailAddress)

当我运行脚本时,它会在出现错误之前(仅)部分下载第一个文件:

我还没有确定我的代码是否有错误,我选择的模块是否有问题(即使 Biopython 应该处理调用),我的连接是否有问题(我的工作阻塞和节流没有警告),或者如果它是其他东西。

我尝试使用和不使用 urllib*/http* 模块运行它都无济于事(我得到了同样的错误)。但是,部分文件很有趣。直到最终序列的所有内容都被下载(最后有一个 contig 条目)。以下是下载文件的最后几行:

可以将其与原始 genbank 文件进行比较:http ://www.ncbi.nlm.nih.gov/nuccore/10955266/?report=genbank

我可以确认这不是与 DTD 文件相关的错误,但其他一切都可以解决。(NCBI 的新 RefSeq 版本与 Bio.Entrez.Parser 兼容?

我在 CentOS Python 3.4.3 :: Anaconda 2.3.0 (64-bit) :: Biopython 1.66 上运行这个脚本

0 投票
3 回答
485 浏览

python - 使用 python/biopython 对整个 genbank 文件的不完整解析

我的脚本的主要目标是将 genbank 文件转换为 gtf 文件。我的问题与从所有CDS 条目中提取 CDS 信息(基因、位置(例如,CDS 2598105..2598404)、codon_start、protein_id、db_xref)有关。我的脚本应该打开/解析一个 genbank 文件,从每个 CDS 条目中提取信息,并将信息写入另一个文件。该脚本不会产生任何错误,但只会在终止之前从 genbank 文件的前 1/2 写入信息。这是我的代码...

输出文件的最后一行是:

基因ECs2629的位置出现在genbank文件的第36094行,但是这个文件的总行数是73498。我已经重新下载了很多次文件,看看是否有下载问题,我已经目测了文件(我觉得它没有错)。我还在另一个同样大的 genbank 文件上尝试了这个脚本,并遇到了相同的问题。

任何人都可以就为什么不解析整个 genbank 文件提供一些建议,我如何修改我的代码以消除这个问题,或者指出另一个可能的解决方案?

(您可以从此处查看 genbank 文件的格式:http ://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html ),但是,我正在使用大肠杆菌genbank 文件(大肠杆菌O157 :H7 str. Sakai DNA,完整基因组),可在此处找到: http ://www.ncbi.nlm.nih.gov/nuccore/BA000007.2

我正在使用以下内容:Centos 6.7、Python 3.4.3 :: Anaconda 2.3.0(64 位)、Biopython 1.66

[编辑] @Gerrat 建议适用于有问题的文件,但不适用于其他文件。使用http://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3和建议的编辑产生约 28 行输出,而我的原始代码输出 2084 行(但是,应该有 4332 行输出)。

0 投票
1 回答
405 浏览

python - 将 biopython 对象的输出保存到文件中?

在这里,我编写了一个代码来使用“id”提取基因的“locus_tag”。如何将输出保存到制表符分隔格式的文件中????代码采用和修改 https://www.biostars.org/p/110284/

0 投票
2 回答
294 浏览

python - Python:获取重复数字集的正则表达式

我正在处理一个文件,这是一个 Genbank 条目(类似于这个

我的目标是提取 CDS 行中的数字,例如:

但我的正则表达式也应该能够从多行中提取数字,如下所示:

我正在使用这个正则表达式:

这给了我正确的数字,但也给了我文件其余部分的数字,比如

那么如何更改我的正则表达式以获取数字?我应该只在它上面使用正则表达式..

我将使用这些数字来打印基本序列的编码部分。