问题标签 [genbank]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

49 问题

0 投票

1 回答

206 浏览

bioperl - BioPerl：提取 CDS 错误

我正在尝试使用 BioPerl 从 GenBank 文件中提取 CDS 和相应的氨基酸序列。脚本如下所示：

}

我收到错误消息：Filehandle GEN1 opens only for input at /Library/Perl/5.12/Bio/Root/IO.pm line 533, line 148。

请帮我解决这个问题。

提前致谢

bioperl genbank

2014-10-23T08:44:28.243

0 投票

1 回答

156 浏览

python - 在 Python (x, y) 中使用产量将 GenBank 解析为 FASTA

现在我试图定义和记录我自己的函数来做这件事，但我在测试代码时遇到了问题，我实际上不知道它是否正确。我用 BioPython、re 或其他方法找到了一些解决方案，但我真的很想用产量来完成这项工作。

2014-11-04T23:54:33.760

0 投票

1 回答

2238 浏览

python - 给定 Biopython 的 GenBank 登录码，如何获得科学名称？

有人知道我如何仅使用 GenBank 代码登录和 biopython 从 GenBank 中的数据中获取科学名称（或所有特征）。例如：

或者好吧：

谢谢大家！=)

python bioinformatics biopython genbank

2015-02-05T21:55:12.710

0 投票

1 回答

2524 浏览

biopython - 将 FASTA 转换为 GenBank

有没有办法使用 BioPython 将 FASTA 文件转换为 Genbank 格式？关于如何从 Genbank 转换为 FASTA 有很多答案，但反之则不然。

biopython fasta genbank

2015-05-12T03:59:57.900

0 投票

1 回答

68 浏览

performance - 改进 genbank 功能添加

我正在尝试使用 biopython 向 genbank 文件添加超过 70000 个新功能。

我有这个代码：

结果只是一个列表，其中包含我需要添加到原始 gbk 文件中的每个功能的开始和结束。

这个解决方案对我的电脑来说非常昂贵，我不知道如何提高性能。有什么好主意吗？

performance biopython genbank

2015-07-08T11:09:30.700

0 投票

1 回答

236 浏览

python - .fasta 和 .genbank 格式之间的文件转换

我必须创建两个函数，它们应该允许我打开.genbank文件并将它们转换为.fasta文件，反之亦然。我目前拥有的是：

它也可能不正确，但我不知道该怎么做。

python fasta genbank

2015-10-16T09:12:56.660

0 投票

1 回答

129 浏览

python - 使用 biopython 下载 genbank 文件时出现 socket.gaierror

我想使用 Biopython 和登录号列表从 NCBI 下载 genbank 文件（请注意，我使用电子邮件地址作为参数调用脚本，例如 python scriptName.py emailAddress）

当我运行脚本时，它会在出现错误之前（仅）部分下载第一个文件：

我还没有确定我的代码是否有错误，我选择的模块是否有问题（即使 Biopython 应该处理调用），我的连接是否有问题（我的工作阻塞和节流没有警告)，或者如果它是其他东西。

我尝试使用和不使用 urllib*/http* 模块运行它都无济于事（我得到了同样的错误）。但是，部分文件很有趣。直到最终序列的所有内容都被下载（最后有一个 contig 条目）。以下是下载文件的最后几行：

可以将其与原始 genbank 文件进行比较：http ://www.ncbi.nlm.nih.gov/nuccore/10955266/?report=genbank

我可以确认这不是与 DTD 文件相关的错误，但其他一切都可以解决。（NCBI 的新 RefSeq 版本与 Bio.Entrez.Parser 兼容？）

我在 CentOS Python 3.4.3 :: Anaconda 2.3.0 (64-bit) :: Biopython 1.66 上运行这个脚本

python biopython ncbi genbank

2015-12-01T20:17:54.997

0 投票

3 回答

485 浏览

python - 使用 python/biopython 对整个 genbank 文件的不完整解析

我的脚本的主要目标是将 genbank 文件转换为 gtf 文件。我的问题与从所有CDS 条目中提取 CDS 信息（基因、位置（例如，CDS 2598105..2598404）、codon_start、protein_id、db_xref）有关。我的脚本应该打开/解析一个 genbank 文件，从每个 CDS 条目中提取信息，并将信息写入另一个文件。该脚本不会产生任何错误，但只会在终止之前从 genbank 文件的前 1/2 写入信息。这是我的代码...

输出文件的最后一行是：

基因ECs2629的位置出现在genbank文件的第36094行，但是这个文件的总行数是73498。我已经重新下载了很多次文件，看看是否有下载问题，我已经目测了文件（我觉得它没有错）。我还在另一个同样大的 genbank 文件上尝试了这个脚本，并遇到了相同的问题。

任何人都可以就为什么不解析整个 genbank 文件提供一些建议，我如何修改我的代码以消除这个问题，或者指出另一个可能的解决方案？

（您可以从此处查看 genbank 文件的格式：http ://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html ），但是，我正在使用大肠杆菌genbank 文件（大肠杆菌O157 ：H7 str. Sakai DNA，完整基因组），可在此处找到： http ://www.ncbi.nlm.nih.gov/nuccore/BA000007.2

我正在使用以下内容：Centos 6.7、Python 3.4.3 :: Anaconda 2.3.0（64 位）、Biopython 1.66

[编辑] @Gerrat 建议适用于有问题的文件，但不适用于其他文件。使用http://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3和建议的编辑产生约 28 行输出，而我的原始代码输出 2084 行（但是，应该有 4332 行输出）。

python biopython genbank

2015-12-17T17:19:46.943

0 投票

1 回答

405 浏览

python - 将 biopython 对象的输出保存到文件中？

在这里，我编写了一个代码来使用“id”提取基因的“locus_tag”。如何将输出保存到制表符分隔格式的文件中？？？？代码采用和修改 https://www.biostars.org/p/110284/

python biopython genbank

2016-03-10T15:54:25.963

0 投票

2 回答

294 浏览

python - Python：获取重复数字集的正则表达式

我正在处理一个文件，这是一个 Genbank 条目（类似于这个）

我的目标是提取 CDS 行中的数字，例如：

但我的正则表达式也应该能够从多行中提取数字，如下所示：

我正在使用这个正则表达式：

这给了我正确的数字，但也给了我文件其余部分的数字，比如

那么如何更改我的正则表达式以获取数字？我应该只在它上面使用正则表达式..

我将使用这些数字来打印基本序列的编码部分。

python regex python-3.x genbank

2016-03-10T18:46:01.890

1 2 3 4 5 6 7 8 9 10

问题标签 [genbank]

Reference