1

目前我们有一个网站,它将用户添加的文本存储为 mediumtext 类型。

目前我们的系统正在检查文本是否匹配并在 1:1 时返回 true(是的,它匹配)(100% 相同 - 一个空格,它将被视为新文本)。

我们正在努力使系统更智能。必须有可能以百分比告诉我们有多少内容是相同的(以百分比表示)。不幸的是,我们没有很好的进展。几乎我们能想到的所有算法都不能正常工作,或者非常缓慢和繁重。

我们希望有人能够给我们一个推动力。

注意:我们试图进行字节比较,但事情没有正常工作。

编辑:我们不仅限于 MySQL。我们正在寻找 apache solr 服务器。如果它有优势,请在这个方向上提供帮助,或者如果有更好的事情。

4

1 回答 1

0

您需要计算 Levenshtein 距离。

http://en.wikipedia.org/wiki/Levenshtein_distance

SO上的示例: MySQL Levenshtein

DELIMITER $$

CREATE FUNCTION LEVENSHTEIN( s1 CHAR(255), s2 CHAR(255)) 
RETURNS int(3) 
DETERMINISTIC
BEGIN
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT;
    DECLARE s1_char CHAR(255);
    DECLARE cv0, cv1 CHAR(255);

    SET s1_len = LENGTH(s1);
    SET s2_len = LENGTH(s2);
    SET cv1 = 0x00;
    SET j = 1;
    SET i = 1;
    SET c = 0;

    IF s1 = s2 THEN
        RETURN 0;
    ELSE IF s1_len = 0 THEN
        RETURN s2_len;
    ELSE IF s2_len = 0 THEN
        RETURN s1_len;
    ELSE
        WHILE j <= s2_len DO 
          SET c = c + 1; 
          IF s1_char = SUBSTRING(s2, j, 1) THEN  
            SET cost = 0; ELSE SET cost = 1; 
          END IF; 
          SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost; 
                SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1;
                IF c > c_temp THEN
                    SET c = c_temp;
                END IF;
                SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1;
            END WHILE;
            SET cv1 = cv0, i = i + 1;
        END WHILE;
    END IF;
    RETURN c;
END$$

DELIMITER ;
于 2012-11-30T18:58:17.653 回答