问题标签 [blast]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
77 浏览

python - 将字典关联到 .txt 文件

我在 file1 中创建了一个 contigs 及其长度的字典。我也有 file2,它是表格格式的爆炸输出,其中包含 contig 对齐(但不是全部)和一些附加信息,如匹配开始和结束的位置等。为了计算查询和主题覆盖率,我需要关联这些长度从 file1 到 file2 中的长度。怎么做?谢谢

0 投票
1 回答
443 浏览

python - 使用 re 解析 .xml 爆炸输出

我正在尝试使用 XML 格式解析 BLAST 输出re,以前从未这样做过,下面是我的代码。

但是,由于某些点击Hsp_num有时不止一次,我得到更多的结果query_fromandquery_to和更少的结果query_len,如何指定 if Hsp_numis more than 1 do print query_lenfor it again?谢谢你

query_len在一个单独的文件中做了,因为它不起作用..

0 投票
2 回答
126 浏览

python - 在python中按名称对.txt文件进行排序

我有一个表格格式的巨大爆炸输出文件。我想根据蛋白质名称对数据进行排序,以查看哪些 seq-s 与该特定蛋白质对齐。假设我有

我想得到一个输出,两者都可以

0 投票
1 回答
70 浏览

mpi - 使用 mpiblast 可以实现什么样的缩放?

在我们的 HPC 集群上,其中一位用户在超过 30 个内核上运行 mpiblast 作业。这些通常会在大约 10 个不同的节点上结束,这些节点通常在用户之间共享。尽管这些作业偶尔可以很好地扩展并且可以有效地使用大约 90% 的可用内核,但扩展性通常非常糟糕,因为作业只能累积对应于大约 10% 可用内核的 CPU 时间。

一般来说,mpiblast 是否应该更好地扩展?有谁知道哪些因素可能导致缩放不良?

0 投票
1 回答
742 浏览

python - 根据位置连接爆炸命中的子集以获得完整命中

我正在使用 biopython 做与此类似的事情, 按命中位置对 rps-blast 结果进行排序,但希望加入或连接本地命中以具有连续的查询和主题命中。

我的代码:

这将给出排序结果:

这一切都很好,但我想进行下一个合乎逻辑的步骤,即连接此处显示的所有三个 sub_queries 和 sub-hits(命中数确实不同)以获得完整的查询和主题序列。前进的方向是什么?

0 投票
2 回答
2084 浏览

python - 短核苷酸序列的 Biopython 爆炸参数

我正在尝试使用 NCBIWWW 通过 biopython 运行 blastn。
我在给定的示例文件上使用 qblast 函数。
我定义了一些方法,当我的 fasta 包含足够长的序列时,一切都像魅力一样。唯一失败的情况是当我需要爆炸来自 Illumina 测序的读数太短时。所以我想说这可能是因为提交作品时没有自动重新定义爆破参数。

我尽我所能接近blastn-short条件(参见此处的表C2 )但没有任何成功。

看起来我无法输入正确的参数。

我认为我越接近工作情况,情况如下:

感谢您提供任何提示/建议以使其发挥作用。

我的快速阅读示例如下:

我得到的错误如下:

当我查看此页面时,似乎我的问题是关于修复阈值,但显然我到目前为止还没有成功。

感谢您的任何帮助。

0 投票
2 回答
240 浏览

python - 来自 NCBI BLASTp 的解析表

我想将一个两列文件转换为一个零和一的表,以便为 PCA(主成分分析)做好准备。输入文件由第一列中的细菌名称和第二列中的细菌描述符组成。

可能的方法:将输入文件存储在哈希中,然后在每列上执行某种“uniq”命令并将它们添加到输出文件中。最后,对于输出文件中的每个组合,如果在文件 1 哈希中找到细菌名称和描述符,则添加 0 或 1。

输入文件(制表符分隔):

所需的输出(制表符分隔):

0 投票
3 回答
3507 浏览

warnings - 错误:(1431.1) FASTA-Reader:警告:FASTA-Reader:标题很长:1127 个字符(最多 1000 个)

我正在我的de novo转录组组装上运行 blastx。虽然程序仍在运行,但我一直在收到类似这样的错误:

...以及其他字符数不同的地方。我已经在网上搜索了这个特定的错误,但我似乎没有找到任何关于它的东西。我希望遇到过它的人可以帮助我理解它的含义,特别是如果我应该停止运行并从不同的参数开始或对我的程序集进行一些更改。

0 投票
1 回答
863 浏览

python-3.x - Biopython NCBIWWW.qblast 测试文件 - 挂起

当我尝试运行 Biopython 提供的用于 NCBIWWW.qblast 在线搜索的测试文件时,它只是一直挂着,从不响应。当我尝试自己运行任何包含 NCBIWWW.qblast 的脚本时,也会发生同样的情况:它刚刚到达这一行并停止。从未发出错误消息,从未收到任何结果,并且该过程永远不会以任何方式结束。

产生问题的脚本之一是这个:

可能是什么问题?

0 投票
1 回答
454 浏览

r - 将 BLAST SRA 函数与 R 一起使用

我是 R 菜鸟,但我可以从 R 的命令行控制 NCBI BLAST 中的 SRA 功能吗?NCBI 网站是出了名的不可靠,我希望能够管理批量文件。