问题标签 [jaro-winkler]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
280 浏览

python - 字符串匹配 - 使用的最佳距离算法

我有两个数据框,df1并且df2,其中包含有关投票站的信息。数据帧具有不同的长度。两个数据框都有一个名为 的列ps_name,这是投票站的名称,还有一个名为 的列district,表示投票站位于哪个区。

我试图在ps_name列上阻塞的同时匹配列上的字符串,因此我可以将匹配项上的(纬度和经度)列从district复制到。geolocationsdf1df2

到目前为止,我已经尝试在阈值处使用jaro-winkler0.88来比较字符串。

我应该使用什么字符串距离算法?我试过jaro-winkler并且也在考虑smith-waterman

0 投票
1 回答
227 浏览

python - 检查和删除 Jaro 字符串相似性的 NoneTypes

我试图辨别两个字符串之间的字符串相似性(使用 Jaro)。每个字符串都位于我的数据框中的单独列中。

当我尝试运行我的字符串相似性逻辑时:

我收到以下错误:

太好了,所以列中有一个无类型,所以我要做的第一件事就是检查这个:

这会导致没有找到 None 类型....此时我在这里摸不着头脑,但继续以任何方式清理这两列。

然而,我仍然得到:

我是否正确删除了 NoneTypes?

0 投票
1 回答
91 浏览

r - JaroWinkler 方法 --> 识别字符串中的字符/数字点

我正在解决一个问题,以确定指定的字符串是否具有正确的格式。我正在尝试使用模糊匹配技术 JaroWinkler 来查找参考字符串和感兴趣的字符串之间的相似度分数。

字符串的正确格式遵循以下顺序(N=数字,C=字符):NNCCCCCC

我在另一个 StackOverflow 问题上发现了类似的问题,并在此处稍微编辑了代码:

我知道 JaroWinkler 方法用于识别常见字符并考虑字符串距离,但我不确定这是否是最好的方法。理想情况下,我希望将单词向量中的第一个和最后一个元素分类为正确并获得 1 分,因为它们具有 NNNCCCCCC 格式。

但是,当我运行此代码时,我得到以下信息:

这种匹配练习有更好的方法吗?任何帮助,将不胜感激!谢谢!

0 投票
0 回答
34 浏览

c# - 如何验证此模糊搜索结果?

我使用此处找到的 Jaro-Winkler 算法进行了模糊搜索(我已经尝试了所有这些算法),但努力验证特定案例

我的 2 个输入是:

根据除一个 SO 答案之外的所有答案,得分约为0.9.

另一个实现(由Jagannatha发布)返回0.0,由于if (commonMatches != common2.Length)

我也尝试了这个实现0.8

根据这个网站0.4,对于这些输入,我应该得到 Jaro-Winkler 的分数。

我的问题:如何验证其中哪些是正确的?

我似乎很清楚,这两个字符串实际上并没有太大区别,实际上它们完全相同,除了 5 个字符(2 个空格和结尾的 ltd)

0 投票
0 回答
22 浏览

pandas - 计算无序和不同大小数据帧的 JaroWinkler 相似度

我从两个附加文件中提取了两个数据框。我想计算文件中标记的 JaroWinkler 相似度。我正在使用下面的代码。

我面临两个问题:

1. 代币订单未处理。当 token 'can' 和 'interesting' 的位置改变时,相似度指数计算错误!!

2. 数据框的大小可能并不总是相同的。当其中一个数据框包含较少的元素时,我的解决方案会出错。

raise ValueError(ValueError: 值的长度 (10) 与索引的长度 (11) 不匹配

如何解决这两个问题并准确计算相似度?

谢谢 !!

TSV 文件

1.df_ex

df_gt

0 投票
1 回答
31 浏览

sql - Oracle fuzzy searching with UTL functions

I need to implement fuzzy search on database layer, but I am having some minor issues. Here is my SQL code for demonstration :

I am selecting 10 tools that match best the criteria of jaro winkler and edit distance similarity utl functions. Struggle I am having is, that I am not getting exact matches first. For example when I type rich the best scored candidate is 'mich' and then are tools with name 'rich' for example 'rich 12', 'rich ax', ...

  1. Is it possible to get "exact matches" first with these utl functions or is there any function that fits my requirements better? Our fuzzy search should be focused more on skipping some characters rather than replacing them for another.
  2. Is it possible to not take into account word length with these functions? (for example when I type 'di' I want to get results as 'dinosaur', but the word doesn't match my score criteria only because its length and I am getting no results.
0 投票
0 回答
37 浏览

python - Python模糊匹配两列字符串

我正在尝试使用类似于 Jaro-Winkler 的方法以 90% 的准确率匹配 Python 中的两列企业名称。不幸的是,我在一家大型金融机构工作,被禁止使用模糊匹配和许多其他库。如果两个字符串 90% 相似,有谁知道匹配两个字符串的函数?

0 投票
1 回答
142 浏览

python - 如何在 Python 中比较两个字符串(英语除外)之间的相似性

我想找到两个字符串之间的相似性示例

我希望答案在 0 和 1 之间。对于上述两个字符串,我们得到 1。现在我正在使用“Jellyfish”,这是 python 中的一个模块,它具有 jaro_distance() 函数。但缺点是我只能比较两个只包含英文单词和其他特殊字符的字符串。但我想比较其他语言的两个字符串,比如旁遮普语

我尝试了相同的 jaro_distance() 函数,但我得到了

在将它们提供给函数之前,我尝试对它们进行编码和解码。有没有办法将 jaro_distance() 用于其他语言,或者是否有其他可用的模块/功能?你们能帮我解决这个问题吗?

0 投票
1 回答
72 浏览

asp.net-core - 带有 Jaro-Winkler 相似距离算法的 EF Core

我想用一些相似距离算法(如 Jaro-Winkler)在我的数据库中搜索字符串。但是 EF Core 无法翻译此类表达式。所以你不能使用如下表达式:

query.Where(x => JaroWinkler.Similarity(x.Title, someText) > 0.5);

我的问题是如何使用 EF Core 实现这一点?有没有办法做到这一点?

0 投票
0 回答
11 浏览

python-3.x - 使用函数比较 Python 列以断言错误结束

我正在重用我之前编写的一些代码来快速字典。我以前用它来比较一个列表和熊猫列中的值,但是现在我试图对多个列做同样的事情,它以一个断言错误结束。

列的大小不同。比较列要短得多,并且使用 jaro.jaro 等式我只是试图返回满足阈值的值。以前我使用了数据框中的样本:

任何帮助将不胜感激。