我想计算数据库中的 Jaro-Winkler 字符串距离。如果我将数据带入 R (with collect
),我可以轻松地使用包中的stringdist
函数stringdist
。
但是我的数据非常大,我想在将数据拉入 R之前过滤 Jaro-Winkler 距离。
Jaro-Winkler 有 SQL 代码(https://androidaddicted.wordpress.com/2010/06/01/jaro-winkler-sql-code/和T-SQL版本)但我想我不知道如何最好让该 SQL 代码与dbplyr
. 我很高兴尝试将该stringdist
函数映射到 Jaro-Winklersql
代码,但我不知道从哪里开始。但即使是像直接从 R 对远程数据执行 SQL 代码这样更简单的事情也会很棒。
我曾希望文档中的SQL 翻译dbplyr
可能会有所帮助,但我不这么认为。