translation - Unicode 字符串上的快速序列对齐

Question

我想运行类似 BLAST 算法的东西来查询一个大型的 unicode 字符串数据库。大多数比对软件（如 BLAST）都需要核苷酸或蛋白质字符串作为输入。但我的输入可能包含任何 Unicode 字符。有人知道可以让我这样做的软件吗？评分矩阵可能只是单位矩阵（没有部分匹配。）

我尝试过 Needleman-Wunsch 和 Smith Waterman，但就我的目的而言，它们太慢了。我需要查询一个大型数据库，就像在 BLAST 中一样。

谢谢！

score 0 · Accepted Answer

BLAST 可用于比对任何字母表中的字符序列。您可能需要自己实现它，因为大多数公开可用的实现都是针对蛋白质量身定制的，但该算法并不特定于蛋白质或核苷酸序列。

score 0 · Accepted Answer

0

vmatch 是一个通用的基于后缀树的对齐程序

于 2011-08-08T15:03:29.727 回答

score 0 · Accepted Answer

你不妨试试 STELLAR：它是一种类星体过滤算法，带有验证步骤。（见这篇论文）

对于 <5% 的低编辑距离，它相当快。

3 回答 3