问题标签 [genbank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
115 浏览

biopython - SeqIO.parse 在 genbank 文件中抛出错误

我正在使用一些 genbank seq 文件并具有以下代码:

虽然它可以运行 seq 文件(包含多个 seq)中的大多数 seq,但我收到以下错误。关于如何解决这个问题的任何想法?

也许删除有问题的序列?它开始记录9212693145然后抛出错误。

我已经尝试重新下载 seq 文件,但这并不能解决问题。

文件“C:\python38\lib\site-packages\Bio\GenBank\Scanner.py”,第 516 行,在 parse_records 记录 = self.parse(handle, do_features) 文件“C:\python38\lib\site-packages\ Bio\GenBank\Scanner.py”,第 499 行,如果 self.feed(handle, consumer, do_features) 解析:文件“C:\python38\lib\site-packages\Bio\GenBank\Scanner.py”,第 466 行, 在 feed self._feed_header_lines(consumer, self.parse_header()) 文件“C:\python38\lib\site-packages\Bio\GenBank\Scanner.py”中,第 1801 行,在 feed_header_lines previous_value_line =structured_comment_dict[ KeyError: 'Assembly -数据'

0 投票
1 回答
32 浏览

python - 修改 Genbank 文件

嗨,我正在尝试在文件中搜索特定的单词列表。如果找到其中一个词,我想在下面添加一个换行符并添加这个短语 \colour = 1(我不想删除我正在搜索的原始词)。

这是我在整个文件中寻找的单词列表之一:

如您所见,extract 包含我正在寻找的短语之一,我想在下面添加一个带有短语的换行符/colour = 1

任何帮助都会很棒!

0 投票
0 回答
102 浏览

r - Rentrez 错误:在文件中找不到摘要结果

我正在使用rentrez 包在NCBI 的核核/核苷酸数据库中搜索Stratiomyidae(有机体)COI(基因)序列。但是,即使我知道它们应该在那里,我也没有找到摘要结果。

这是我的代码:

search_COI 对象显示有 1540 条记录与我的搜索匹配。但是 entrez_summary 函数给了我以下错误:

这非常令人沮丧,因为我对不同的苍蝇科(Acroceridae)使用了完全相同的代码并且有 0 个问题。我尝试过使用 retmax 和 version 参数,但这在这些步骤之后的步骤中给我带来了问题。

0 投票
1 回答
55 浏览

biopython - 使用 biobython SeqIO 模块编写和保存 GenBank 文件

我想以 genbank 文件格式保护一些 DNA 序列,以包含有关基因、域等的信息。我知道如何创建 SeqRecord 对象并将我想要的所有信息包含在文件中:

我在屏幕上为 SeqRecord 对象打印的内容如下所示,其中似乎包含了所有内容:

但在生成的文件中,缺少有关 SOURCE、ORGANISM 和 Taxonomy 的信息:

谁能帮助我如何在输出文件中包含注释信息?
我发现 GenBank.Record 模块可以包含所有信息,并且在屏幕上看起来非常漂亮,但是没有关于如何将 Record 对象保存到文件的信息......

0 投票
0 回答
83 浏览

python - 使用 biopython 从 genbank 文件中获取功能时出现 KeyError

我对 python 很陌生,但我一直在使用它从 genbank 文件中提取基因序列。问题是有时我会得到我想要的输出(将序列打印到文件中),有时它会返回一个关键错误。这取决于我使用的是哪个加入。有谁知道为什么它有时会给出一个关键错误?我认为这可能与基因库记录本身有关,但它们看起来非常相似并且基因在那里(在基因特征限定符中)。EG 适用于 HG738867.1,但不适用于 AP019703.1。这是我的代码 -

这是追溯 -

提前致谢!

0 投票
0 回答
22 浏览

biopython - 在两个 gb 文件中搜索匹配的序列

我有两个 Genbank 文件,我正在提取执行以下操作的基因:

这工作得很好,我能够获得我需要的基因的序列、GC 含量和翻译。

第二个 Genbank 文件是一种非常相似的细菌菌株。我的想法是使用新提取的序列:

要搜索第二个 Genbank 文件:

但是,很明显,我收到了一个错误:

我一直试图在 bioPython 指令上找到这些信息,但没有什么与我需要的相似。有没有办法在不运行对齐的情况下做到这一点?

0 投票
1 回答
51 浏览

python - 使用python循环遍历目录中的文件

我已经编写了一个 python 函数,它将获取单个 genbank 文件并将核苷酸序列拉出,将其写入原始文件。

然后..

这对单个文件很有用,但我需要弄清楚如何遍历目录中的所有文件并执行此命令。我有一段时间没有使用 python,因此感谢您的帮助。

0 投票
1 回答
49 浏览

python - BioSeqIO 无法识别 .gbff 文件

我正在尝试将一堆 .gbff 基因库文件转换为 .gbk 以解析序列等。我得到以下代码来工作并转换单个文件,

但我无法让任何带有“*.gbff”的代码工作。前任。

我不断收到错误“文件”,第 1 行计数 = SeqIO.convert(“ .gbff”,“genbank”,“. gbk”,“genbank”) ^ SyntaxError:无效语法“我已经检查了很多语法有时我想知道 python 是否无法将 .gbff 识别为文件格式。有没有办法解决?还是我没有注意到我正在做的一些愚蠢的错误?

提前致谢!!

0 投票
0 回答
55 浏览

r - 如何在R中匹配字符串模式

我正在寻找一个好的库来使用 R 提取 genbank (gbk) 文件的信息。

这是gbk文件的常见结构

所以我想提取与 CDS 相关的信息,比如

对于第一个 CDS 将类似于:

并为其余的 CDS 执行此操作,可能是数千个!

抱歉,我不知道如何在 R 中做到这一点

谢谢