问题标签 [jaro-winkler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - .NET 中的 Jaro-Winkler 距离算法
.NET 中是否有任何 LGPL 或商业友好的 Jaro-Winkler 距离许可实现?
python - winkler 的 Python 性能改进请求
我是 python n00b,我想要一些关于如何改进算法以提高此方法的性能以计算两个名称的 Jaro-Winkler 距离的建议。
示例输出
android - 使用 Jaro-Winkler 距离算法进行排序?
我想知道如何以这种方式运行 SQLite 订单
我知道 Android 在用户定义的功能方面存在瓶颈,我有替代方案吗?
sqlite - Jarowinkler 作为 SQLite 的可加载扩展
我想知道是否有人将 Jarowinkler 函数实现为 SQLite 的可加载扩展。
我正在寻找与“ SQLite-Levenshtein”等效的产品。Mateusz Adamowski 作为 SQLite 可加载扩展的 Levenstehein 距离的出色实现
https://github.com/mateusza/SQLite-Levenshtein
提前致谢
levenshtein-distance - 比较相似性算法
我想使用字符串相似度函数在我的数据库中查找损坏的数据。
我遇到了其中几个:
- 哈罗,
- 雅罗-温克勒,
- 莱文斯坦,
- 欧几里得和
- Q-克,
我想知道它们之间有什么区别以及它们在什么情况下效果最好?
nlp - NLP - 提高模糊字符串匹配的运行时间和召回率
我已经制定了一个有效的算法,但运行时间非常可怕。是的,我从一开始就知道这将是可怕的,但不是那么多。对于仅 200000 条记录,程序运行了一个多小时。
基本上我正在做的是:
是的,这段代码非常循环愉快。我正在使用蛮力,因为召回非常重要。所以,我想知道如何让它更快,因为我不仅要为数百万数据运行 200000 个数据,而且客户端的计算机不是高端的(1GB-2GB 的 Ram Pentium 4 或双核,我测试该程序的计算机是具有 4GB 内存的双核)。我遇到了 TF/IDF,但我不知道它是否足够。我想知道谷歌如何进行实时搜索。
提前致谢!
编辑:这个程序是一个数据过滤器。从200,000个虚拟数据(实际数据大约12M)中,我必须过滤与样本无关的数据(500个虚拟样本,我仍然不知道实际样本量有多少)。
使用给定的虚拟数据和样本,运行时间大约为 1 小时,但经过四处修补后,我成功地将其缩短到 10-15 分钟。我通过对以相同字符开头的字段和样本进行分组(不包括特殊和无意义的词,例如 the、a、an)并将字段与具有相同第一个字符的样本进行匹配来减少它。我知道那里有问题。如果该字段在第一个字符处拼写错误怎么办?但我认为这些数量可以忽略不计。样本拼写正确,因为它始终保持不变。
c - Text::JaroWinkler::strcmp95 的第三个参数是什么?
我对用 Perl 编写的用于计算两个字符串之间的距离(或相似性)的 Jaro-Winkler 模块感兴趣:
http://search.cpan.org/~scw/Text-JaroWinkler-0.1/JaroWinkler.pm
我不清楚该函数的语法;我找不到任何明确的文件。
这是示例代码:
11到底代表什么?我认为它是一个长度。哪个长?我要检查的字符数量的长度?必须在那里吗?
perl - 解释 Perl 中的 Jaro-Winkler 分数——Stata 中是否有替代方案?
Jaro-Winkler 分数应该有多大才能说这两个字符串可能相似,是否有行业标准?
我有一个字符串列表,我想看看它们中的任何一个是否是詹姆斯这个名字的合理印刷错误。我使用了用 C 编写的 perl 模块,反过来,我从 stata 中的数据集中收到了它的字符串。(所以如果有一个Stata模块,我会全神贯注!)
这是到目前为止我在 perl 中编写的用于与字符串 James 进行比较的代码。
我也不确定我是否正确或有效地解释了 Jaro-Winkler 函数的第三个参数。也许我应该做 length('JAMES') ?