问题标签 [genbank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioperl - BioPerl:提取 CDS 错误
我正在尝试使用 BioPerl 从 GenBank 文件中提取 CDS 和相应的氨基酸序列。脚本如下所示:
}
我收到错误消息:Filehandle GEN1 opens only for input at /Library/Perl/5.12/Bio/Root/IO.pm line 533, line 148。
请帮我解决这个问题。
提前致谢
python - 在 Python (x, y) 中使用产量将 GenBank 解析为 FASTA
现在我试图定义和记录我自己的函数来做这件事,但我在测试代码时遇到了问题,我实际上不知道它是否正确。我用 BioPython、re 或其他方法找到了一些解决方案,但我真的很想用产量来完成这项工作。
python - 给定 Biopython 的 GenBank 登录码,如何获得科学名称?
有人知道我如何仅使用 GenBank 代码登录和 biopython 从 GenBank 中的数据中获取科学名称(或所有特征)。例如:
或者好吧:
谢谢大家 !=)
biopython - 将 FASTA 转换为 GenBank
有没有办法使用 BioPython 将 FASTA 文件转换为 Genbank 格式?关于如何从 Genbank 转换为 FASTA 有很多答案,但反之则不然。
performance - 改进 genbank 功能添加
我正在尝试使用 biopython 向 genbank 文件添加超过 70000 个新功能。
我有这个代码:
结果只是一个列表,其中包含我需要添加到原始 gbk 文件中的每个功能的开始和结束。
这个解决方案对我的电脑来说非常昂贵,我不知道如何提高性能。有什么好主意吗?
python - .fasta 和 .genbank 格式之间的文件转换
我必须创建两个函数,它们应该允许我打开.genbank
文件并将它们转换为.fasta
文件,反之亦然。我目前拥有的是:
它也可能不正确,但我不知道该怎么做。
python - 使用 biopython 下载 genbank 文件时出现 socket.gaierror
我想使用 Biopython 和登录号列表从 NCBI 下载 genbank 文件(请注意,我使用电子邮件地址作为参数调用脚本,例如 python scriptName.py emailAddress)
当我运行脚本时,它会在出现错误之前(仅)部分下载第一个文件:
我还没有确定我的代码是否有错误,我选择的模块是否有问题(即使 Biopython 应该处理调用),我的连接是否有问题(我的工作阻塞和节流没有警告),或者如果它是其他东西。
我尝试使用和不使用 urllib*/http* 模块运行它都无济于事(我得到了同样的错误)。但是,部分文件很有趣。直到最终序列的所有内容都被下载(最后有一个 contig 条目)。以下是下载文件的最后几行:
可以将其与原始 genbank 文件进行比较:http ://www.ncbi.nlm.nih.gov/nuccore/10955266/?report=genbank
我可以确认这不是与 DTD 文件相关的错误,但其他一切都可以解决。(NCBI 的新 RefSeq 版本与 Bio.Entrez.Parser 兼容?)
我在 CentOS Python 3.4.3 :: Anaconda 2.3.0 (64-bit) :: Biopython 1.66 上运行这个脚本
python - 使用 python/biopython 对整个 genbank 文件的不完整解析
我的脚本的主要目标是将 genbank 文件转换为 gtf 文件。我的问题与从所有CDS 条目中提取 CDS 信息(基因、位置(例如,CDS 2598105..2598404)、codon_start、protein_id、db_xref)有关。我的脚本应该打开/解析一个 genbank 文件,从每个 CDS 条目中提取信息,并将信息写入另一个文件。该脚本不会产生任何错误,但只会在终止之前从 genbank 文件的前 1/2 写入信息。这是我的代码...
输出文件的最后一行是:
基因ECs2629的位置出现在genbank文件的第36094行,但是这个文件的总行数是73498。我已经重新下载了很多次文件,看看是否有下载问题,我已经目测了文件(我觉得它没有错)。我还在另一个同样大的 genbank 文件上尝试了这个脚本,并遇到了相同的问题。
任何人都可以就为什么不解析整个 genbank 文件提供一些建议,我如何修改我的代码以消除这个问题,或者指出另一个可能的解决方案?
(您可以从此处查看 genbank 文件的格式:http ://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html ),但是,我正在使用大肠杆菌genbank 文件(大肠杆菌O157 :H7 str. Sakai DNA,完整基因组),可在此处找到: http ://www.ncbi.nlm.nih.gov/nuccore/BA000007.2
我正在使用以下内容:Centos 6.7、Python 3.4.3 :: Anaconda 2.3.0(64 位)、Biopython 1.66
[编辑] @Gerrat 建议适用于有问题的文件,但不适用于其他文件。使用http://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3和建议的编辑产生约 28 行输出,而我的原始代码输出 2084 行(但是,应该有 4332 行输出)。
python - 将 biopython 对象的输出保存到文件中?
在这里,我编写了一个代码来使用“id”提取基因的“locus_tag”。如何将输出保存到制表符分隔格式的文件中????代码采用和修改 https://www.biostars.org/p/110284/
python - Python:获取重复数字集的正则表达式
我正在处理一个文件,这是一个 Genbank 条目(类似于这个)
我的目标是提取 CDS 行中的数字,例如:
但我的正则表达式也应该能够从多行中提取数字,如下所示:
我正在使用这个正则表达式:
这给了我正确的数字,但也给了我文件其余部分的数字,比如
那么如何更改我的正则表达式以获取数字?我应该只在它上面使用正则表达式..
我将使用这些数字来打印基本序列的编码部分。