问题标签 [jaro-winkler]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

74 问题

0 投票

0 回答

817 浏览

elasticsearch - 使用 Jaro-Winkler & Levenstein 算法的 ElasticSearch

我正在尝试使用 ElasticSearch 作为数据存储来通过他们的名字找到一些人。我尝试创建索引，添加单词，更改映射，但是当我尝试使用 JaroWinkler & Levenstein 算法按姓名查找人员时，它什么也没有返回。

步骤 1放置：http : //127.0.0.1 :9200/list

有答案

第2步

发布/放置http://127.0.0.1:9200/list/main/1

有答案

第 3 步 获取http://127.0.0.1:9200/list/_mapping 答案：

第 4 步 发布http://127.0.0.1:9200/list/main/_search

有身体

和回答

任何人都可以帮助我解决这种情况吗？

2018-06-08T13:06:46.207

0 投票

4 回答

7042 浏览

python - 大致匹配公司名称

我的数据库中有 1200 万个公司名称。我想将它们与离线列表匹配。我想知道这样做的最佳算法。我已经通过 Levenstiens 距离做到了这一点，但它没有给出预期的结果。您能否建议一些相同的算法。问题与公司相匹配

python algorithm string-matching levenshtein-distance jaro-winkler

2018-08-20T12:26:33.950

0 投票

0 回答

377 浏览

tsql - TSQL中不同手动输入的全名之间的模糊匹配算法？

我希望在 TSQL（没有 MDS）中实现一个比较全名的模糊匹配算法。这些名称来自单独的手动输入，无法控制输入的内容。其中一个系统也倾向于切断名称的结尾，因为它的字符限制较低。作为我正在查看的数据类型的一个极端示例：

我绝对不是在这里寻找完美的匹配，但希望有人可以推荐这样的算法。我研究了 Jaro-Winkler 距离和 Soundex，但我不确定我是否最好使用基于距离的算法或语音算法来处理此类数据。想法？

tsql sql-server-2016 fuzzy-comparison soundex jaro-winkler

2018-08-31T16:49:15.243

0 投票

1 回答

668 浏览

python - 如何使用python检查两个不同excel文件中两个列表之间的相似性？

我有两个包含客户姓名的列表。名称可以相似或不同。如何使用python找到这两个列表之间的相似性？

在具有相似性之后，我想将相应的数据从一个 excel 文件拉到另一个。

例子：

清单 1：

清单 2：

这只是一个示例数据。实际数据包含近 30 万行。

我尝试通过将两个列表作为 excel 文件分别传递给函数来尝试 Jaccard Similarity，但结果（即 Jaccard Similarity）始终为零。

编辑：如何遍历两个列表，将每个元素与其他列表的所有元素进行比较并构建距离矩阵？

然后，我想按降序对该矩阵的每一行进行排序，以了解它们之间最接近的匹配。或者有没有其他更好的方法来知道矩阵构建后最接近的匹配？

python cosine-similarity jaro-winkler

2018-10-29T09:31:38.363

0 投票

1 回答

343 浏览

r - 名称匹配 R

我有 2 个名称的数据集。一个有准确的名字，另一个有准确的和修改过的名字

我正在考虑用 jarowinkler 函数的值（允许计算字符串的相似度）制作一个表，其中 dt_t 在行中，dt_f 在列中，以便 dt_f[i] 被具有最高的 jarowinkler 值。

但我不知道该怎么做，如果可能的话，少说点。

欢迎任何想法

谢谢

r datatable jaro-winkler

2018-11-14T21:42:59.740

0 投票

2 回答

252 浏览

r - 比较和链接具有不同字序/字数的字符串

我正在尝试使用 recordLinkage 包将两个数据集链接在一起，其中一个数据集倾向于给出多个姓氏/中间名，另一个只给出一个姓氏。目前正在使用的字符串比较函数是 Jaro-Winkler 函数，但是返回的分数取决于字符串如何偶然匹配，而不是较短字符串的内容是否包含在较长字符串中的任何位置。这导致创建了许多质量较差的链接。错误权重的可重现示例如下：

我希望 id 的 2 和 3 获得与 id #1 大致相同的权重，但目前它们要低得多，因为它们的姓在两个数据集中的位置并不完全相同（尽管内容是一致的）。有没有办法可以修改此处使用的字符串比较函数/数据结构，以便考虑不同的顺序？

补充说明：

这两个数据集都有数百万行，因此内存效率在这里绝对重要！
有时，另一个数据集可能不仅仅是一个姓氏，所以我们将 3 个单词与 2 个单词进行比较 - 可能最好先解决简单的情况
两个数据集之间的名称通常会存在拼写差异
目前我们正在使用 IBM 的质量阶段进行此链接，他们使用“MULT_UNCERT”比较功能（https://www.ibm.com/support/knowledgecenter/en/SSZJPZ_11.7.0/com.ibm.swg.im.iis .ds.design.help.doc/topics/r_qresfgde_MULT_UNCERT_comparison.html）。我想在 R 中复制它。

r string-comparison fuzzy-comparison record-linkage jaro-winkler

2018-11-18T19:07:56.517

0 投票

2 回答

49 浏览