问题标签 [jaro-winkler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - 使用 Jaro-Winkler & Levenstein 算法的 ElasticSearch
我正在尝试使用 ElasticSearch 作为数据存储来通过他们的名字找到一些人。我尝试创建索引,添加单词,更改映射,但是当我尝试使用 JaroWinkler & Levenstein 算法按姓名查找人员时,它什么也没有返回。
步骤 1放置:http : //127.0.0.1 :9200/list
有答案
第2步
发布/放置http://127.0.0.1:9200/list/main/1
有答案
第 3 步 获取http://127.0.0.1:9200/list/_mapping 答案:
第 4 步
发布http://127.0.0.1:9200/list/main/_search
有身体
和回答
任何人都可以帮助我解决这种情况吗?
python - 大致匹配公司名称
我的数据库中有 1200 万个公司名称。我想将它们与离线列表匹配。我想知道这样做的最佳算法。我已经通过 Levenstiens 距离做到了这一点,但它没有给出预期的结果。您能否建议一些相同的算法。问题与公司相匹配
tsql - TSQL中不同手动输入的全名之间的模糊匹配算法?
我希望在 TSQL(没有 MDS)中实现一个比较全名的模糊匹配算法。这些名称来自单独的手动输入,无法控制输入的内容。其中一个系统也倾向于切断名称的结尾,因为它的字符限制较低。作为我正在查看的数据类型的一个极端示例:
我绝对不是在这里寻找完美的匹配,但希望有人可以推荐这样的算法。我研究了 Jaro-Winkler 距离和 Soundex,但我不确定我是否最好使用基于距离的算法或语音算法来处理此类数据。想法?
python - 如何使用python检查两个不同excel文件中两个列表之间的相似性?
我有两个包含客户姓名的列表。名称可以相似或不同。如何使用python找到这两个列表之间的相似性?
在具有相似性之后,我想将相应的数据从一个 excel 文件拉到另一个。
例子:
清单 1:
清单 2:
这只是一个示例数据。实际数据包含近 30 万行。
我尝试通过将两个列表作为 excel 文件分别传递给函数来尝试 Jaccard Similarity,但结果(即 Jaccard Similarity)始终为零。
编辑:如何遍历两个列表,将每个元素与其他列表的所有元素进行比较并构建距离矩阵?
然后,我想按降序对该矩阵的每一行进行排序,以了解它们之间最接近的匹配。或者有没有其他更好的方法来知道矩阵构建后最接近的匹配?
r - 名称匹配 R
我有 2 个名称的数据集。一个有准确的名字,另一个有准确的和修改过的名字
我正在考虑用 jarowinkler 函数的值(允许计算字符串的相似度)制作一个表,其中 dt_t 在行中,dt_f 在列中,以便 dt_f[i] 被具有最高的 jarowinkler 值。
但我不知道该怎么做,如果可能的话,少说点。
欢迎任何想法
谢谢
r - 比较和链接具有不同字序/字数的字符串
我正在尝试使用 recordLinkage 包将两个数据集链接在一起,其中一个数据集倾向于给出多个姓氏/中间名,另一个只给出一个姓氏。目前正在使用的字符串比较函数是 Jaro-Winkler 函数,但是返回的分数取决于字符串如何偶然匹配,而不是较短字符串的内容是否包含在较长字符串中的任何位置。这导致创建了许多质量较差的链接。错误权重的可重现示例如下:
我希望 id 的 2 和 3 获得与 id #1 大致相同的权重,但目前它们要低得多,因为它们的姓在两个数据集中的位置并不完全相同(尽管内容是一致的)。有没有办法可以修改此处使用的字符串比较函数/数据结构,以便考虑不同的顺序?
补充说明:
这两个数据集都有数百万行,因此内存效率在这里绝对重要!
有时,另一个数据集可能不仅仅是一个姓氏,所以我们将 3 个单词与 2 个单词进行比较 - 可能最好先解决简单的情况
- 两个数据集之间的名称通常会存在拼写差异
- 目前我们正在使用 IBM 的质量阶段进行此链接,他们使用“MULT_UNCERT”比较功能(https://www.ibm.com/support/knowledgecenter/en/SSZJPZ_11.7.0/com.ibm.swg.im.iis .ds.design.help.doc/topics/r_qresfgde_MULT_UNCERT_comparison.html)。我想在 R 中复制它。
java - Java 中的 Winkler 表
我正在制作一个聊天机器人,它将通过数据集中最接近的值(树形图)回答你。系统是 AIML 的模拟。
我需要制作 Winkler-table,它会给我一个结果数字数组。怎么做?
有一个图像,它显示了这个表是如何工作的:
ios - Objective-C 或 Swift 中的 Jaro Winkler 距离
我需要对大量字符串进行模糊比较,并且正在查看尊重字母顺序差异的Jaro-Winkler 。有没有人知道在 Objective-C 或 Swift 中使用 Jaro-Winkler 或 IOS 原生的一些方法来做到这一点的方法?
感谢您的任何建议或建议。
java - 有几行的 jaro-winkler
我想计算几行之间的相似度,我找到了距离 jaro-winkler 但只有两个字符串,我怎样才能用几行替换这两个字符串(来自记事本)?
matching - 在 Informatica 中创建新的匹配逻辑 (Ratcliffe - Obershelp)
我正在 Informatica 10.2.1 中进行匹配项目,其中我需要在产品描述中识别匹配字符串。Ratcliffe-Obershelp 是我需要实施的匹配策略。
我听说 Ratcliffe-Obershelp 产生的结果比 Jaro - Winkler 更好,但我不确定如何将其编码为 Informatica 中的转换,因为它不是内置的。
没有代码可以显示,因为我什至不知道从哪里开始。
我希望这是一个转换/转换组,可以重现 Ratcliffe-Obershelp 在每行基础上创建的匹配分数。