问题标签 [fuzzy]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
325 浏览

artificial-intelligence - 模糊聚类隶属度值计算

对于我的数据集中的以下简单部分,

我已经应用了层次聚类算法,并且我为这些数据找到了聚类,

我的问题是我如何使用模糊聚类隶属函数来定义每个状态属于 k 集群女巫是秋天 [0,1]

例如:State A --> F(A)= 0.8 from cluster 1 and F(A)= 0.2 from cluster 2 ..etc 有什么建议吗?

0 投票
1 回答
184 浏览

matlab - 嵌套循环模糊逻辑验证

使用 Matlab 中的模糊工具箱,我尝试计算验证集上的误差。第一次交叉验证用于在训练和测试(验证)集中拆分初始训练数据。然而,在这个验证阶段,我也想为 genfis3 函数中的不同参数设置获取错误。我想将此函数中的第四个输入从 2 更改为 10 并计算平均误差。

整个代码:

0 投票
0 回答
142 浏览

string - 与 String::Approx 的多个模糊匹配

我想使用 perl 在序列文件中查找模糊匹配,并返回字符串中的字符编号,在该字符串中找到给定数量的替换(假设 S = 2)。例如,如果我的输入文件是:

我的搜索查询是“ACCTTT”。

然后我希望我的输出是这样的:

我尝试使用 String::Approx 执行此操作,但此模块仅返回与查询匹配的数组的每个元素的第一个索引。此外,这个模块似乎有问题,即使我将插入和删除的数量设置为 0,并允许 2 次替换,它仍然会返回超过 2 次替换的匹配索引。

这是我正在使用的代码(以防我对此模块有什么不明白的地方)。

但这只是返回:

0 投票
1 回答
479 浏览

python - 与python匹配的模糊正则表达式返回空列表

我首次尝试使用repython 2.7 中的模块进行模糊模式匹配。

不幸的是,我所做的每一次尝试都会返回一个空列表。我根本不明白所需的语法。我想知道是否有人可以告诉我为什么下面的代码:

返回一个空列表?

0 投票
0 回答
674 浏览

python - python中具有两个以上输入变量的模糊规则

我正在尝试在 python 中构建一个模糊推理系统。我有 4 个变量,具体取决于决定的输出类。

价格的类似函数是:def priceClassification(D)。

规则如下:

“如果酒店设施评分非常好,参观人数很多,房间设施很好,价格也比较低,那么档次很好。”

我不明白如何编写规则。我见过的所有来源都采用一个输入和一个输出变量。但在我的代码中并非如此。

谁能给我一个关于如何编写此规则的好资源或想法?

0 投票
0 回答
337 浏览

sql-server - 精确匹配 w/ SSIS 模糊匹配

我正在使用模糊匹配 SSIS 组件,并希望对新名称(来自输入列 Name1)与已知名称(来自查找列的别名)进行模糊匹配。单独执行此操作效果很好(而且速度很快),但是当我想将匹配限制为仅具有相同国家代码的记录时,如下所示,顺便说一句,两列都是 char(3) 是 ISO 代码,SSIS 性能太慢了它永远不会完成。

在此处输入图像描述

我已经尝试了 [参考表] 选项卡上可用的所有索引变体,并且我相信我根据https://msdn.microsoft.com/en-us/library/ms186488.aspx正确使用了关系组合

有人遇到类似问题并找到可行的解决方案吗?

在此处的评论中添加问题的答案(更好的格式);

SQL Server 版本:2014 年

SSIS 版本:不确定,但使用 SQL Server 数据工具为 VS 2013 创建

数据量来源:65K

要匹配的数据量数据:105K(但 SSIS 管道卡在 10k 左右)

SQL Server 表示它正在等待 SSIS 在查看任务管理器中提取更多数据 DTSdebug 正在使用 ~15% CPU 并将无限期地这样做

真正奇怪的是,如果我删除国家匹配(设置为精确)并使用更大的源集(172K 对 65K),SSIS 运行得非常好。

0 投票
1 回答
2702 浏览

python - 如何使用 Pandas 对 excel 文件进行模糊匹配?

我有一个名为 account 的表,其中包含两列 - ID 和 NAME。ID 是唯一的哈希,但 NAME 是可能有重复的字符串。

我正在尝试编写一个 python 脚本来读取这个 excel 文件并匹配 0-3 个类似的 NAME 值,但我似乎无法让它工作。有人可以帮忙吗?谢谢

任何帮助将非常感激!

该文件有这样的行: -

预期(输出数据帧)将类似于:

问题:上面的代码只是将输入复制为输出保存的文件,而没有实际连接任何匹配项。

0 投票
0 回答
132 浏览

mysql - 如何在 mysql 中优化 damerau-levenshtein?

我在 MySQL 中安装了 Damerau-Levenshtein 插件。它运行良好。然而,当我达到超过 150,000 行后,检索数据变得更慢(4 秒),尽管我应用了 damlevlim,将计算限制为 10 的差异。

在不到 20,000 行的情况下不到 1 秒。我想,一旦我达到 100 万行,它会明显变慢。

所有相关字段均已编入索引。

查询很简单:

请您的见解以优化流程。谢谢你。

0 投票
0 回答
363 浏览

join - 使用 Spark 对多个列进行模糊连接

我有两个没有需要加入的公共密钥的 Spark RDD。

第一个 RDD 来自 cassandra 表 a,其中包含项目的引用集(id、item_name、item_type、item_size),例如:(1, 'item 1', 'type_a', 20)。第二个 RDD 每晚从另一个系统导入,它包含大致相同的数据,没有 id,并且是原始形式 (raw_item_name, raw_type, raw_item_size) 例如 ('item 1.', 'type a', 20)。

现在我需要根据数据的相似性加入这两个 RDD。正确知道 RDD 的大小约为 10000,但将来它会增长。

我的实际解决方案是:两个 RDD 的笛卡尔连接,然后计算每行的 ref 和 raw 属性之间的距离,然后按 id 分组并选择最佳匹配。

在这种大小的 RDD 下,这个解决方案是有效的,但我担心未来笛卡尔连接可能会变得很大。

有什么更好的解决方案?我试图查看 Spark MLlib,但不知道从哪里开始,使用哪种算法等。任何建议将不胜感激。

0 投票
2 回答
473 浏览

emacs - 快速文件打开或文件查找,例如 sublime text,甚至是 intelliJ

是否有一个包或emacs内置的东西可以在目录结构(即项目目录)内进行模糊文件名匹配,模仿Sublime和Intellij中的快速打开。

我不需要它在应用程序中间弹出一个文本输入 UI,并在下面以下拉形式列出可能的匹配项,并在我键入时更新。只是它符合该功能的意图。