我想计算数据库中的 Jaro-Winkler 字符串距离。如果我将数据带入 R (with collect),我可以轻松地使用包中的stringdist函数stringdist。
但是我的数据非常大,我想在将数据拉入 R之前过滤 Jaro-Winkler 距离。
Jaro-Winkler 有 SQL 代码(https://androidaddicted.wordpress.com/2010/06/01/jaro-winkler-sql-code/和T-SQL版本)但我想我不知道如何最好让该 SQL 代码与dbplyr. 我很高兴尝试将该stringdist函数映射到 Jaro-Winklersql代码,但我不知道从哪里开始。但即使是像直接从 R 对远程数据执行 SQL 代码这样更简单的事情也会很棒。
我曾希望文档中的SQL 翻译dbplyr可能会有所帮助,但我不这么认为。