2

获取价值:

我有levenshtein_ratio函数,从这里,在我的 MySQL 数据库中排队。我按以下方式运行它:

    $stmt = $db->prepare("SELECT r_id, val FROM table WHERE levenshtein_ratio(:input, someval) > 70");
    $stmt->execute(array('input' => $input));
    $result = $stmt->fetchAll(); 

    if(count($result)) {
        foreach($result as $row) {
            $out .= $row['r_id'] . ', ' . $row['val'];
        }
    }

正如预期的那样,它确实是一种享受。但我想知道,有没有一种很好的方法来获得levenshtein_ratio()计算的值?

我试过了:

    $stmt = $db->prepare("SELECT levenshtein_ratio(:input, someval), r_id, val FROM table WHERE levenshtein_ratio(:input, someval) > 70");
    $stmt->execute(array('input' => $input));
    $result = $stmt->fetchAll(); 

    if(count($result)) {
        foreach($result as $row) {
            $out .= $row['r_id'] . ', ' . $row['val'] . ', ' . $row[0];
        }
    }

它在技术上确实$row[0]有效(我从 中获得百分比),但查询有点难看,我不能使用正确的键来获取值,就像我可以用于其他两项一样。

有没有办法以某种方式获得一个很好的参考?

我试过:

$stmt = $db->prepare("SELECT r_id, val SET output=levenshtein_ratio(:input, someval) FROM table WHERE levenshtein_ratio(:input, someval) > 70");

根据我在网上找到的东西对其进行建模,但它不起作用,最终破坏了整个查询。

加快速度:

我正在为一组值运行此查询:

foreach($parent as $input){
    $stmt = ...
    $stmt->execute...
    $result = $stmt->fetchAll(); 

    ... etc
}

但它最终变得非常缓慢。对于一个只有 14 个输入的数组和一个大约 350 行的数据库,就像 20 秒一样慢,预计很快就会达到 10,000 行。我知道将查询放在循环中是一件很淘气的事情,但我不知道还有什么办法可以绕过它。

编辑 1

当我使用

$stmt = $db->prepare("SELECT r_id, val SET output=levenshtein_ratio(:input, someval) FROM table WHERE levenshtein_ratio(:input, someval) > 70");

这肯定会花费两倍的时间,就好像我只计算过一次一样?类似于$i < sizeof($arr);在 for 循环中?

4

2 回答 2

1

要清理列名,您可以使用“as”来重命名函数的列。同时,您可以通过在 where 子句中使用该列名来加快处理速度,因此该函数只执行一次。

$stmt = $db->prepare("SELECT r_id, levenshtein_ratio(:input, someval) AS val FROM table HAVING val > 70");

如果它仍然太慢,你可以考虑像https://github.com/juanmirocks/Levenshtein-MySQL-UDF这样的 ac 库

doh - 正如 spencer7593 指出的那样,忘记将“where”切换为“have”。

于 2016-04-17T18:14:56.167 回答
1

我假设 `someval` 是对表中列的不合格引用。虽然您可能会理解,如果不查看表定义,其他阅读 SQL 语句的人是无法分辨的。作为对未来读者的帮助,请考虑使用表名或(最好)在语句中分配给表的短别名来限定列引用。

 SELECT t.r_id
      , t.val
   FROM `table` t
  WHERE levenshtein_ratio(:input, t.someval) > 70

WHERE 子句中的该函数必须针对表中的每一行进行评估。没有办法让 MySQL 在其上建立索引。所以没有办法让 MySQL 执行索引范围扫描操作。

有可能让 MySQL 使用索引进行查询,例如,如果查询有一个ORDER BY t.val子句,或者如果有一个“覆盖索引”可用。

但这并不能解决需要为每一行评估函数的问题。(如果查询具有排除行的其他谓词,则不一定需要为排除的行评估该函数。)

如果函数被声明为 DETERMINISTIC,那么将表达式添加到 SELECT 列表中确实不应该太昂贵。第二次调用具有相同参数的 DETERMINISTIC 函数可以重用上一次执行返回的值。(声明一个函数 DETERMINISTIC 本质上意味着当给定相同的参数值时,该函数保证返回相同的结果。重复调用将返回相同的值。也就是说,返回值只取决于参数值,而不依赖于还要别的吗。

 SELECT t.r_id
      , t.val
      , levenshtein_ratio(:input, t.someval) AS lev_ratio
   FROM `table` t
  WHERE levenshtein_ratio(:input2, t.someval) > 70

(注意:我在第二个引用中使用了不同的绑定占位符名称,因为 PDO 不会像我们预期的那样处理“重复”绑定占位符名称。(这可能在更新的 PDO 版本中已得到纠正。第一个“修复”的问题是对文档的更新,指出绑定占位符名称应该在语句中只出现一次,如果您需要对相同值的两个引用,请使用两个不同的占位符名称并将相同的值绑定到两者。)

如果不想重复表达式,可以将条件从 WHERE 子句移到 HAVING,并通过分配给列的别名引用 SELECT 列表中的表达式。

 SELECT t.r_id
      , t.val
      , levenshtein_ratio(:input, t.someval) AS lev_ratio
   FROM `table` t
 HAVING lev_ratio > 70

WHERE 和 HAVING 之间的最大区别在于 WHERE 子句中的谓词在访问行时进行评估。在访问行之后,HAVING 子句的评估要晚得多。(这是对为什么 HAVING 子句可以通过别名引用 SELECT 列表中的列的简要说明,但 WHERE 子句不能这样做。)

如果这是一个大表,并且排除了大量行,则使用 HAVING 子句可能会产生显着的性能差异。可能会创建更大的中间集。

要获得用于查询的“索引”,覆盖索引是我看到的唯一选项。

 ON `table` (r_id, val, someval)

这样,MySQL 就可以满足来自索引的查询,而无需在基础表中查找页面。查询需要的所有列值都可以从索引中获得。


跟进

要创建索引,我们需要创建一个列,例如

  lev_ratio_foo FLOAT

并用函数的结果预填充

UPDATE `table` t
   SET t.lev_ratio_foo = levenshtein_ratio('foo', t.someval) 
;

然后我们可以创建一个索引,例如

... ON `table` (lev_ratio_foo, val, r_id)   

并重新编写查询

SELECT t.r_id
     , t.val
     , t.lev_ratio_foo 
  FROM `table` t
 WHERE t.lev_ratio_foo > 70

通过该查询,MySQL 可以对以 lev_ratio_foo 作为前导列的索引进行索引范围扫描操作。

很可能,当向表中添加新行或修改 someval 列的值时,我们可能希望添加 BEFORE INSERT 和 BEFORE UPDATE 触发器来维护该值。

可以扩展该模式,可以为“foo”以外的值添加其他列。例如“酒吧”

UPDATE `table` t
   SET t.lev_ratio_bar = levenshtein_ratio('bar', t.someval)

显然,这种方法对于广泛的输入值是不可扩展的。

于 2016-04-17T18:15:40.057 回答