问题标签 [genbank]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

49 问题

0 投票

1 回答

539 浏览

bash - awk 双斜杠记录分隔符

我正在尝试根据字符串“//”来分隔文件的记录。

我试过的是：

其中“******”等只是向我显示记录已拆分的痕迹。

但是，该文件还包含/（由它们自己）并且我的踪迹 ******正在那里打印，这也意味着 awk 也将它们解释为我的记录分隔符。

我怎样才能让 awk 只在//????上拆分记录

更新：我在 Unix 上运行（OS X 附带的那个）

我找到了一个临时解决方案，即：

但是必须有更好的方法，尤其是对于我正在处理的大量文件。

2016-03-23T02:56:58.930

0 投票

1 回答

521 浏览

python - 如何使用 biopython 编辑和保存 genbank 文件的序列到新的 genbank 文件？

我有一个错误的 .gbk 文件，并且我有遵循以下格式的更正列表

“核苷酸的地址：正确的核苷酸”

我知道如何打开和解析精确的原始序列

我只需要知道如何用我自己的核苷酸校正来替换它。我试过了

dna_refseq 只是一个构成整个基因组的列表

我在文档或在线的任何地方都找不到这个特定的动作，直观地说，这是 biopython 应该能够做到的。

python biopython genbank

2016-04-07T01:43:11.367

0 投票

1 回答

425 浏览

python - Entrez 和 SeqIO “在句柄中找不到记录”

我的代码如下所示：

倒数第二行给了我这个错误：

我的文件看起来不错 - 它不是空的或任何东西。有很多记录，据我所知，它的格式是正确的。我到底做错了什么？

我注意到这适用于其他数据库 - 例如“核苷酸”。是 Pubmed 的问题吗？这需要不同的格式吗？谢谢。

python biopython genbank

2016-04-19T07:00:14.490

0 投票

1 回答

405 浏览

python - 使用 biopython 仅下载部分 genbank 文件

我是 Biopython 新手，在解析 genbank 文件时遇到性能问题。

我必须解析很多 gb 文件，从中我有入藏号。解析后，我只想检查文件的分类和细胞器。现在，我有这个代码：

为了寻找分类法，我有：

这（整个脚本）工作正常。我的问题是我下载整个 gb 文件（有时很大）只是为了查看这两个特征：细胞器和分类。如果我只能下载 gb 文件的这一部分，我的脚本会快得多，但我还没有弄清楚这是否可能。

有人知道这是否可以做到，如果可以，怎么做？非常感谢提前

python parsing biopython genbank

2016-07-27T13:13:25.180

0 投票

1 回答

851 浏览

python - 从 python 的 fasta 标头中的相应 GI 编号获取 NCBI 的入藏号

我一直在 Genbank 上看到警告说他们正在逐步淘汰 GI 编号，并保存了许多 fasta 文件，我以以下格式编辑了标题：

我什至不知道从哪里开始，但有没有一种方法，最好是使用 python，我可以从 NCBI 获取每个 gi 的相应登录号，并输出一个带有如下标题的文件：

这是文件格式的另一个示例：

编辑/更新：

python fasta ncbi genbank

2016-09-13T16:02:30.223

0 投票

0 回答

59 浏览

r - 按 R 中物种的顺序过滤基因库文件

我正在制作哺乳动物 456 个 FOXP2 基因序列的 genbank 文件的本地数据库，这些序列来自一个blastn。我使用“ape”R 包来探索 genbank 文件，我使用了具有 456 个 ID 的 read.genbank 函数并将结果存储在一个对象上。我想从所有这些哺乳动物序列中对啮齿动物进行子集化，但是该对象具有的唯一属性是名称（ID）、类别、描述和物种。有没有一种方法可以过滤我的文件以便只获取啮齿动物？

r bioinformatics genbank

2017-07-20T20:05:58.423

0 投票

1 回答

308 浏览

python - 使用python根据关键字获取蛋白质FASTA序列

我想用 python 2.7 从 Entrez 收集蛋白质 FASTA 序列。我正在寻找任何具有关键字的蛋白质：名称中的“终止酶”和“大”。到目前为止，我得到了这段代码：

然而，它可以让我从各种生物体中获得几个终止酶，而我只需要形成噬菌体的终止酶（特别是病毒 [taxid 10239]，宿主细菌。我已经设法从我感兴趣的病毒的 NCBI 获得了 nuccore 登录 ID，但是我不知道如何结合这两个信息。id文件如下所示：

我是否需要访问每个 ID 的每个 gb 文件并在其中搜索我想要的蛋白质？

python biopython ncbi genbank

2017-07-25T08:42:27.307

0 投票

1 回答

369 浏览

metadata - 从基因组 gbff 文件中提取元数据

我有超过 1000 个 .gbff.gz 基因组文件，我想从每个文件中提取元数据，并将元数据条目放在单独的列中。

metadata genetic genbank

2017-09-28T03:24:27.650

0 投票

0 回答

37 浏览

java - 在 Genbank 的多页结果中翻页

示例：http ://www.ncbi.nlm.nih.gov/nuccore/?term= trocholejeunea 其中 4 页有 79 个项目，但是，当我通过单击“上一个”或“下一个”浏览页面时，地址变成了 http://www.ncbi.nlm.nih.gov/nuccore/ 最后加“&page=2”是不行的，源码中看不到href或者javascript：

我想知道这是如何实现的，以及如何通过java对其进行爬取？谢谢！

java html web-crawler genbank

2017-11-12T18:26:07.287

0 投票

1 回答

23 浏览

loops - 如何优雅地将变量传递给命令

我有一组当前可用于一个文件的命令：

（我知道，效率不是很高，但对我有用）。简而言之，它的作用是：它从 stringABC到LOCUSfile输出行mainfile.gbk，然后是几个sed&grep命令使文件可解析，最后将所有内容写入一个新文件ABC.txt。

现在我想在字符串列表上迭代该命令，即

list.txt

这样每一行 fromlist.txt被取出并分配给一个变量，然后运行命令，最后list.txt输出一个文件中的每一行。

我想把命令放在一个while read line循环中，但不知何故，变量的分配不起作用/它们没有传递给命令......

loops sed grep genbank

2018-05-15T18:36:49.550

1 2 3 4 5 6 7 8 9 10

问题标签 [genbank]

Reference