mysql - MySQL 将 Damerau–Levenshtein Fuzzy 与 Like 通配符混合

Question

我最近在 MySQL 中实现了 Damerau-Levenshtein 算法的 UDF，并且想知道是否有一种方法可以将 Damerau-Levenshtein 算法的模糊匹配与 Like 函数的通配符搜索结合起来？如果我在表中有以下数据：

ID | Text
---------------------------------------------
1  | let's find this document
2  | let's find this docment
3  | When the book is closed
4  | The dcument is locked

我想运行一个包含 Damerau–Levenshtein 算法的查询...

select text from table where damlev('Document',tablename.text) <= 5;

...使用通配符匹配以在我的查询中返回 ID 1、2 和 4。我不确定语法或者这是否可能，或者我是否必须以不同的方式处理这个问题。上面的 select 语句单独工作正常，但不适用于单个单词。我将不得不将上面的 SQL 更改为...

select text from table where 
 damlev('let's find this document',tablename.text) <= 5;

...当然只返回 ID 2。我希望有一种方法可以将模糊和通配符组合在一起，如果我希望返回的所有记录都包含“文档”一词或其变体出现在文本字段中。

score 3 · Accepted Answer

在处理人名并对其进行模糊查找时，对我有用的是创建第二个单词表。还要创建第三个表，它是包含文本的表和单词表之间的多对多关系的相交表。将一行添加到文本表时，您可以将文本拆分为单词并适当地填充相交表，并在需要时将新单词添加到单词表中。一旦这个结构到位，您可以更快地进行查找，因为您只需要在唯一词表上执行您的 damlev 函数。一个简单的连接可以让您获得包含匹配单词的文本。在此处输入图像描述

单个单词匹配的查询看起来像这样：

SELECT T.* FROM Words AS W
JOIN Intersect AS I ON I.WordId = W.WordId
JOIN Text AS T ON T.TextId = I.TextId
WHERE damlev('document',W.Word) <= 5

两个词看起来像这样（在我的脑海中，所以可能不完全正确）：

SELECT T.* FROM Text AS T
JOIN (SELECT I.TextId, COUNT(I.WordId) AS MatchCount FROM Word AS W
      JOIN Intersect AS I ON I.WordId = W.WordId
      WHERE damlev('john',W.Word) <= 2
            OR damlev('smith',W.Word) <=2
      GROUP BY I.TextId) AS Matches ON Matches.TextId = T.TextId
          AND Matches.MatchCount = 2

这里的好处是，以一些数据库空间为代价，您只需将耗时的 damlev 函数应用于唯一单词，无论您的文本表的大小如何，这可能只会数以千计。这很重要，因为 damlev UDF 不会使用索引 - 它会扫描应用它的整个表来计算每一行的值。只扫描唯一的单词应该会快得多。另一个优点是 damlev 应用于单词级别，这似乎是您所要求的。另一个优点是您可以扩展查询以支持搜索多个单词，并且可以通过在 TextId 上对匹配的相交行进行分组来对结果进行排名，并根据匹配数进行排名。

mysql - MySQL 将 Damerau–Levenshtein Fuzzy 与 Like 通配符混合

1 回答 1

Related

Reference