问题标签 [fuzzy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1682 浏览

python - difflib.SequenceMatcher get_matching_blocks() 出现无法解释的行为

我正在尝试fuzzywuzzy,并遇到了很多情况下它会产生错误的结果。我尝试调试并遇到了一个难以解释的 get_matching_blocks() 场景。

我对 get_matching_blocks() 的理解是,它应该返回一个三元组 (i,j,n),其中n索引处第一个字符串中长度的子字符串应与索引 处第二个字符串i中长度的子字符串完全匹配nj.

那么为什么上面的代码找不到匹配的块呢?

0 投票
1 回答
185 浏览

matlab - 为模糊输入插入单元格类型编号时出错

我想使系统内容模糊,所以首先我在 GUI 中制作图形系统形状。我系统的主扇区是一张表,该表的某些列必须由用户填写,其他行必须经过模糊处理后填写。然后,我单独制作了模糊系统,当我想使用命令窗口在 MATLAB 中将单元类型编号(而不是模糊输入变量)插入我的模糊系统时,出现了这个错误:

请帮我解决问题。

0 投票
3 回答
339 浏览

r - 从 R 中文本字符串的第一个近似匹配中提取信息(并对匹配的总数求和)

我无法对文本字符串的近似匹配求和,以及从第一次匹配的字符串中提取信息。

我有看起来像这样的数据:

请注意,最新的文本字符串在较早的文本字符串中添加了全大写“THEN”和“AT”。

我想要一个看起来像这样的表:

这包括:

与最早日期的文本对应的ID号(其他文本源自的“原始”文本)。 每个的所有近似匹配的总和。与最早日期对应的文本。并且文本的日期与最早的日期相对应。

我有数千万个案例,所以我在自动化流程时遇到了麻烦。

我运行 Windows 7,并且可以访问快速计算服务器。

想法

从这里,我可以使用“agrep”,但我不确定在什么情况下。任何帮助将不胜感激!

注意:虽然下面的三个答案确实以我最初提出的方式回答了我的问题,但我没有提到即使没有“AT”和“THEN”这两个词,我的文本案例也会有所不同。事实上,它们中的大多数并不完全匹配。我应该把它放在原来的问题中。但是,我仍然希望得到一个答案。

谢谢!

0 投票
2 回答
2063 浏览

r - 通过名称的模糊匹配创建唯一 ID(通过使用 R 的 agrep)

使用 R,我正在尝试匹配按年份和城市构建的数据集中的人名。由于一些拼写错误,完全匹配是不可能的,所以我尝试使用 agrep() 来模糊匹配名称。

数据集的一个样本块的结构如下:

整洁的版本:

我想分别在每个城市查一下,几年后是否有候选人出现。例如在示例中,

保罗·塞扎尔·费雷拉·德·阿劳霍

保罗·塞萨尔·费雷拉·德·阿劳霍

出现两次(有拼写错误)。应为整个数据集中的每个候选人分配一个唯一的数字候选人 ID。数据集相当大(5500 个城市,大约 100K 条目),因此稍微有效的编码会有所帮助。关于如何实现这一点的任何建议?

编辑:这是我的尝试(在迄今为止的评论的帮助下)完成手头的任务非常缓慢(效率低下)。对此有何改进建议?

编辑2:现在以良好的速度运行。问题是在每一步都与许多因素进行比较(感谢蓝魔导师指出这一点)。将比较减少到仅一组(即一个城市)中的候选人在 5 秒内运行 80,000 行命令 - 这是我可以忍受的速度。

0 投票
3 回答
790 浏览

php - 将 PHP 模糊时间转换为 Javascript?

我有一个 php 函数来做模糊时间(又名时间前)。

这在从服务器端构建表格时使用,但是现在我们正在通过 JavaScript 向表格中添加新项目,并且我们能够选择日期,因此我需要在 Javascript 中复制功能但让它接受日期格式YYYY-MM-DD2012-12-14.

我将开始研究它,但我对 Javascript 中的日期很糟糕,所以把它贴在这里,以防有人可以更快地做到这一点。

功能如下:

这是我到目前为止所拥有的,但它在83 年前又回来了

0 投票
1 回答
2901 浏览

emacs - Emacs 模糊自动补全

我真的很喜欢idoemacs 中的模糊匹配。我想拥有自动完成功能。最好使用auto-complete,因为我已经ac-python和其他设置了auto-complete. 我知道auto-complete如果没有找到正常匹配,它会提供模糊匹配,但我通常想要这个。

0 投票
0 回答
405 浏览

java - 模糊匹配无序字符串

我有一堆字符串,它们的措辞完全随机,我需要找到与关键字的最佳匹配。我尝试过使用三元组和 Levenshtein 的算法,但我仍然得到不规则的结果。我尝试按字符串的第一个字符对字符串进行排序,然后运行 ​​Levenshtein 的算法,以便能够获得更准确的结果,但这并没有帮助。

我的关键字每个可能是 1-3 个单词,但我尝试匹配的目标字符串有时是 >10-20 个单词。我可以使用任何其他算法来有效地将关键字匹配到正确的字符串吗?

我尝试使用的三胞胎方法:

其中 A 和 B 是三元组数组(一个单词的 3 个字符,由 1 索引生成),例如

而 A ∩ B 是 A 和 B 中相似的三元组。这种方法看起来很有效,但最终给了我很多不规则的结果。

那么有什么办法可以改进这种模糊匹配呢?

0 投票
2 回答
2034 浏览

algorithm - 日期类型值的模糊匹配

我没有真正的问题,但我更喜欢为一个问题寻求创造性的输入。

我想比较两个(很可能不相等的)日期值并计算它们的相似性比率。因此,例如,如果我进行比较08.01.201310.01.2013我会得到一个相对较高的值,但介于两者之间08.01.201317.04.1998它会非常低。

但现在我不确定我应该如何准确计算相似度。首先,我正在考虑将 Date 值转换为字符串,然后在它们上使用 EditDistance(将一个字符串转换为另一个字符串的单个字符操作的数量)。在某些情况下,这似乎是一个好主意,我肯定会实现它,但我还需要一个适当的计算,比如31.01.201302.02.2013

0 投票
2 回答
104 浏览

mongodb - 复杂的 URL 处理概念

我目前正在努力解决一个复杂的 URL 处理概念问题。该应用程序有一个产品属性数据库表/集合,其中包含所有不同的产品类型(即类别、颜色、制造商、材料等)。

现在的任务是按照每个(!)可能的顺序处理以下样式的 URL 请求,以检索包含的产品属性。唯一允许的字符是破折号(已解决的 SEO 要求,某些属性也可以包括它们自己的破折号 -我认为这也是一个重要的点- 即类别“suv-cars”或制造商“mercedes-benz”):

...所以:应该允许每个属性的顺序!结果必须是有关每个 URL 请求所用属性的信息(顺便说一句,是的,重复的内容将通过重定向和预定义的模式来修复)。“不存在的属性”/“废话”是可能的,应该被忽略。

更新:

想法1:我正在考虑这个问题的一种方法是用破折号分割查询字符串并按值分析它们,问题:在某些属性的两个或三个或更多单词组合中,有太多不同的组合和变体所以我认为大量的查询扼杀了这个想法。

想法 2:另一种方法是使用所有不同的组合构建一个(在我看来)太大的 Alias/URL-Table,但我认为这只是一个丑陋的解决方法。大约有 15.000 个不同的属性,因此不同排序顺序中的别名计数正在扼杀这个想法。

想法3:轮到你了!感谢您的思想和时间。

0 投票
2 回答
267 浏览

function - matlab中调用函数。这样有错吗?

我有以下课程matlab

现在,在命令 winows 中,我执行了以下操作:

对于最后一个命令,为什么会出现此错误?我是否调用了错误的函数?如何将 th 值传递给函数floating_search.Sfloating_search.M检索Swhich的值Y~=1

谢谢。