“fuzzy”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

325 浏览

artificial-intelligence - 模糊聚类隶属度值计算

对于我的数据集中的以下简单部分，

我已经应用了层次聚类算法，并且我为这些数据找到了聚类，

我的问题是我如何使用模糊聚类隶属函数来定义每个状态属于 k 集群女巫是秋天 [0,1]

例如：State A --> F(A)= 0.8 from cluster 1 and F(A)= 0.2 from cluster 2 ..etc 有什么建议吗？

2016-01-17T04:51:55.077

0 投票

1 回答

184 浏览

matlab - 嵌套循环模糊逻辑验证

使用 Matlab 中的模糊工具箱，我尝试计算验证集上的误差。第一次交叉验证用于在训练和测试（验证）集中拆分初始训练数据。然而，在这个验证阶段，我也想为 genfis3 函数中的不同参数设置获取错误。我想将此函数中的第四个输入从 2 更改为 10 并计算平均误差。

整个代码：

matlab validation loops fuzzy

2016-01-24T15:51:52.873

0 投票

0 回答

142 浏览

string - 与 String::Approx 的多个模糊匹配

我想使用 perl 在序列文件中查找模糊匹配，并返回字符串中的字符编号，在该字符串中找到给定数量的替换（假设 S = 2）。例如，如果我的输入文件是：

我的搜索查询是“ACCTTT”。

然后我希望我的输出是这样的：

我尝试使用 String::Approx 执行此操作，但此模块仅返回与查询匹配的数组的每个元素的第一个索引。此外，这个模块似乎有问题，即使我将插入和删除的数量设置为 0，并允许 2 次替换，它仍然会返回超过 2 次替换的匹配索引。

这是我正在使用的代码（以防我对此模块有什么不明白的地方）。

但这只是返回：

string perl bioinformatics matching fuzzy

2016-01-26T17:33:53.683

0 投票

1 回答

479 浏览

python - 与python匹配的模糊正则表达式返回空列表

我首次尝试使用repython 2.7 中的模块进行模糊模式匹配。

不幸的是，我所做的每一次尝试都会返回一个空列表。我根本不明白所需的语法。我想知道是否有人可以告诉我为什么下面的代码：

返回一个空列表？

python regex fuzzy pypi-regex

2016-02-17T11:26:08.970

0 投票

0 回答

674 浏览

python - python中具有两个以上输入变量的模糊规则

我正在尝试在 python 中构建一个模糊推理系统。我有 4 个变量，具体取决于决定的输出类。

价格的类似函数是：def priceClassification(D)。

规则如下：

“如果酒店设施评分非常好，参观人数很多，房间设施很好，价格也比较低，那么档次很好。”

我不明白如何编写规则。我见过的所有来源都采用一个输入和一个输出变量。但在我的代码中并非如此。

谁能给我一个关于如何编写此规则的好资源或想法？

python scikit-learn fuzzy

2016-03-01T03:24:08.063

0 投票

0 回答

337 浏览

sql-server - 精确匹配 w/ SSIS 模糊匹配

我正在使用模糊匹配 SSIS 组件，并希望对新名称（来自输入列 Name1）与已知名称（来自查找列的别名）进行模糊匹配。单独执行此操作效果很好（而且速度很快），但是当我想将匹配限制为仅具有相同国家代码的记录时，如下所示，顺便说一句，两列都是 char(3) 是 ISO 代码，SSIS 性能太慢了它永远不会完成。

我已经尝试了 [参考表] 选项卡上可用的所有索引变体，并且我相信我根据https://msdn.microsoft.com/en-us/library/ms186488.aspx正确使用了关系组合

有人遇到类似问题并找到可行的解决方案吗？

在此处的评论中添加问题的答案（更好的格式）；

SQL Server 版本：2014 年

SSIS 版本：不确定，但使用 SQL Server 数据工具为 VS 2013 创建

数据量来源：65K

要匹配的数据量数据：105K（但 SSIS 管道卡在 10k 左右）

SQL Server 表示它正在等待 SSIS 在查看任务管理器中提取更多数据 DTSdebug 正在使用 ~15% CPU 并将无限期地这样做

真正奇怪的是，如果我删除国家匹配（设置为精确）并使用更大的源集（172K 对 65K），SSIS 运行得非常好。

sql-server ssis fuzzy-comparison fuzzy

2016-03-02T16:12:19.010

0 投票

1 回答

2702 浏览

python - 如何使用 Pandas 对 excel 文件进行模糊匹配？

我有一个名为 account 的表，其中包含两列 - ID 和 NAME。ID 是唯一的哈希，但 NAME 是可能有重复的字符串。

我正在尝试编写一个 python 脚本来读取这个 excel 文件并匹配 0-3 个类似的 NAME 值，但我似乎无法让它工作。有人可以帮忙吗？谢谢

任何帮助将非常感激！

该文件有这样的行： -

预期（输出数据帧）将类似于：

问题：上面的代码只是将输入复制为输出保存的文件，而没有实际连接任何匹配项。

python pandas match fuzzy fuzzywuzzy

2016-03-14T08:18:07.667

0 投票

0 回答

132 浏览

mysql - 如何在 mysql 中优化 damerau-levenshtein？

我在 MySQL 中安装了 Damerau-Levenshtein 插件。它运行良好。然而，当我达到超过 150,000 行后，检索数据变得更慢（4 秒），尽管我应用了 damlevlim，将计算限制为 10 的差异。

在不到 20,000 行的情况下不到 1 秒。我想，一旦我达到 100 万行，它会明显变慢。

所有相关字段均已编入索引。

查询很简单：

请您的见解以优化流程。谢谢你。

mysql optimization fuzzy

2016-03-14T18:38:12.520

0 投票

0 回答

363 浏览

第一个 RDD 来自 cassandra 表 a，其中包含项目的引用集（id、item_name、item_type、item_size），例如：(1, 'item 1', 'type_a', 20)。第二个 RDD 每晚从另一个系统导入，它包含大致相同的数据，没有 id，并且是原始形式 (raw_item_name, raw_type, raw_item_size) 例如 ('item 1.', 'type a', 20)。

现在我需要根据数据的相似性加入这两个 RDD。正确知道 RDD 的大小约为 10000，但将来它会增长。

我的实际解决方案是：两个 RDD 的笛卡尔连接，然后计算每行的 ref 和 raw 属性之间的距离，然后按 id 分组并选择最佳匹配。

在这种大小的 RDD 下，这个解决方案是有效的，但我担心未来笛卡尔连接可能会变得很大。

有什么更好的解决方案？我试图查看 Spark MLlib，但不知道从哪里开始，使用哪种算法等。任何建议将不胜感激。

join apache-spark apache-spark-mllib fuzzy

2016-03-20T13:48:14.463

0 投票

2 回答

473 浏览

emacs - 快速文件打开或文件查找，例如 sublime text，甚至是 intelliJ

是否有一个包或emacs内置的东西可以在目录结构（即项目目录）内进行模糊文件名匹配，模仿Sublime和Intellij中的快速打开。

我不需要它在应用程序中间弹出一个文本输入 UI，并在下面以下拉形式列出可能的匹配项，并在我键入时更新。只是它符合该功能的意图。

emacs fuzzy-search fuzzy

2016-03-21T17:59:05.320

问题标签 [fuzzy]

artificial-intelligence - 模糊聚类隶属度值计算

matlab - 嵌套循环模糊逻辑验证

string - 与 String::Approx 的多个模糊匹配

python - 与python匹配的模糊正则表达式返回空列表

python - python中具有两个以上输入变量的模糊规则

sql-server - 精确匹配 w/ SSIS 模糊匹配

python - 如何使用 Pandas 对 excel 文件进行模糊匹配？

mysql - 如何在 mysql 中优化 damerau-levenshtein？

join - 使用 Spark 对多个列进行模糊连接

emacs - 快速文件打开或文件查找，例如 sublime text，甚至是 intelliJ

问题标签 [fuzzy]

Reference