问题标签 [jaro-winkler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
35 浏览

algorithm - 推荐用于字符串检测的字符串度量算法?

我们正在尝试为我们的字符串比较程序选择一个字符串度量算法。如果我们想要检测单词的拼写错误和更改(例如将字母更改为单词或符号、添加额外的字母或反转单词等),那么哪个是最好的字符串度量算法?对不起糟糕的英语

0 投票
0 回答
56 浏览

python - 熊猫数据框 - 模棱两可

我正在尝试使用一些代码运行 Jaro Winkler 函数来比较两个字符串的相似性。如果我只是硬编码两个值,john 和 jon,使用下面的逻辑我不会遇到问题。但是我想要的是使用 csv 文件并比较所有名称。当我尝试得到

ValueError:Series 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。

来自 csv 的示例 在此处输入图像描述

0 投票
0 回答
10 浏览

string - 具有拼写更改的单词的理想字符串度量算法(反转,添加额外字符,在前缀或后缀内)

再会!我们目前遇到了障碍,因为我们找不到理想的字符串度量算法用于我们的程序。字符串度量算法有很多,一一测试和检查并不理想。

我们需要证明选择的字符串度量对于我们试图解决的问题是理想的,即检测句子中的亵渎词。我们最初选择了 Jaro-Winkler 距离,但与其他算法相比,我们无法完全证明它是正确的算法。我们只能将它与 Levenshtein 和 Hamming Distance 进行比较。

当前的问题在于拼写更改,因为我们需要有一个特定的阈值来证明一个词是否亵渎。我们需要能够捕捉到拼写错误(添加/减少字母)、颠倒、音节重新排列等的亵渎词。然后我们不确定 Jaro-Winkler 是否适合这类问题。

现在我们不会专注于像 @$$ 这样的 leet/特殊形式。

任何帮助和建议将不胜感激!

0 投票
1 回答
43 浏览

python - 比较两列并应用 Jaro 距离

我有一个数据框,我需要应用 Jaro winkler 距离,例如 -jaro.jaro_winkler_metric(u'SHACKLEFORD', u'SHACKELFORD')

数据框 -

col1 col2
价值1 价值2
价值3 价值4

所以基本上我有两列“col1”和“col2”,我需要将 value1 与 value 2 进行比较 - jaro.jaro_winkler_metric(u'value1', u'value2')然后 value3 与 value4 等等,迭代应该继续到最后一个值并在新列中获得分数

预期输出 -

col1 col2 分数
价值1 价值2 0.88
价值3 价值4 0.77