问题标签 [soundex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
113 浏览

python - 模式 scikit-learn 的意外结束

我正在尝试使用 soundex 将一行的每个单词转换为哈希版本,然后使用 scikit-learn 对其执行一些机器学习。

代码如下:

但是当我这样做时,我收到一个错误:

0 投票
1 回答
1026 浏览

jpa - 使用 EclipseLink 中的 Soundex 和 CriteriaBuilder API

目前正在使用 CriteriaBuilder、Predicates、JPA 2.0 和 EclipseLink 作为提供者创建对象搜索。

我的挑战是访问 soundex 功能并将其应用于动态构建的标准。

...循环我对查询的输入

……最后

这显然适用于简单的标准构建器项目,我可以使用“like”、“greaterThan”、日期比较等。

我想启用使用 EclipseLink soundex() 运算符的表达式。使用 EclipseLink 提供程序打开了我创建 eclipselink 表达式的能力,但我无法弄清楚如何将它应用于谓词。

在查找允许我创建可在 CriteriaBuilder 中使用的表达式的文档时遇到很多麻烦。可能吗?可以将 EclipseLink 表达式转换为参数化的持久性表达式<>吗?...然后被设置为内置条件查询的谓词?

0 投票
2 回答
11630 浏览

c# - 实现智能搜索/模糊字符串比较

我在 ASP.NET MVC 应用程序上有一个网页,客户可以在其中搜索供应商。供应商在网站上获取他们自己的详细信息。客户想要一个“智能搜索”功能,即使供应商的拼写与在搜索框中键入的内容“略有不同”,他们也可以在其中搜索供应商并找到他们。

我不知道客户的“略有不同”的概念是什么。我一直在研究实现自定义 soundex 算法。这会根据单词的发音将单词转换为数字。然后将该数字用于比较。

例如:

扎克

扎克

将编码为相同的值。我还有其他选择吗?

0 投票
0 回答
152 浏览

sql - 用 soundex 删除重复的行?

我有两张表,一张有外键。我想从表 1 中删除重复项,同时更新表 2 上的键。即计算表 1 上的重复项,从重复项中保留 1 个键,并查询表 2 上的其余重复记录,用键 I 替换它们m 与表 1 保持一致。Soundex 将是最佳选择,因为并非所有名称在表 1 中都拼写正确。我有基本算法,但不知道该怎么做。帮助?

到目前为止,这就是我所拥有的:

最后一部分不完全工作,给我一个错误

错误:选择列表中的“Table1.CourseName”列无效,因为它既不包含在聚合函数中,也不包含在 GROUP BY 子句中。

更新:其中的一些名字CourseName也有数字。像有些是罗马和数字格式。也需要找到这些,但 Soundex 忽略了数字。

0 投票
1 回答
545 浏览

sql - 为模糊字符串匹配增加 SQL Soundex 的容错能力

SQL SOUNDEX函数用于模糊字符串匹配时,有没有办法增加容错能力?我正在使用它来搜索供应商名称。我所拥有的是:

这在某种程度上有效,但我想稍微提高容错性。例如:

理想情况下,我希望所有这些示例都匹配。此外,一个小问题是当供应商名称由 2 个单词组成并且用户按第二个单词搜索时,这显然会起作用,因为行进取决于单词的第一个字母:

最初,我在 Web 应用程序中使用了一个模糊字符串比较库,该库使用了各种近似字符串比较算法,但事实证明,当 20 个人同时搜索 5000 多个供应商时,Web 服务器无法处理。我现在尝试在存储过程中执行此操作,以便数据库仅返回搜索结果,而不是要搜索的供应商的完整列表。

0 投票
1 回答
870 浏览

sql - 为名称搜索 sql 创建模糊逻辑

我正在尝试创建一个模糊逻辑来匹配类似的名字,如 rob 和 robert。这两个词的 SQL Soundex 函数提供了更大的差异,这没有用。是否有另一种方法来查找名称匹配。

0 投票
4 回答
2916 浏览

r - MetaPhone Functions(如 SoundEx)功能并在 R 中使用?

我想使用MetaPhoneDouble MetaphoneCaverphone、 MetaPhone3 、 SoundEx ,如果有人在“R”中使用过NameX函数,我可以对类似的值进行分类和总结,以在分析之前最大限度地减少数据清理操作。

我完全意识到每种算法都有自己的长处和短处,并且非常希望不使用 SoundEx,但如果我找不到替代方案,它仍然可以工作;正如这篇文章中提到的那样, Harper将与 SoundEx 下的任何不相关名称列表匹配,但不应在 Metaphone 中匹配以获得更好的结果匹配。

虽然我不确定哪个最能满足我的目的,同时仍然保留一些灵活性,所以这就是我想对其中几个进行尝试的原因,并且在查看值之前生成如下表。

在此处输入图像描述

表源链接

姓氏不是我最初分析的主题,但认为这是一个很好的例子,因为我想有效地考虑所有像“听起来”的词被视为相同的值,这实际上是我想要做的,在评估值时简单地调用某事.

我已经看过一些东西:

  • 我知道可以使用RCpp编写和调用 C 包,甚至在 SE 上也有 SoundEx 的 C 解决方案,但我之前没有编写过 R 包,如果有更简单的方法可以避免重新发明轮子直接在 R 中执行还是存在具有该功能的包?
  • 我知道RecordLinkage和现在的stringdist包有一个 SoundEx 函数,但没有任何形式的 MetaPhone 函数。

所以我特别寻找答案是如何在 R 中使用 MetaPhone / Caverphone 并知道“值”,以便我可以按它们对数据值进行分组?

额外的警告是我仍然认为我对 R 很陌生,因为我不是它的日常用户。

0 投票
1 回答
362 浏览

search - 自定义分析器 elasticsearch soundex 加雪球

以下对我有用(搜索“测试”也返回带有“测试”的字段): index : analysis : analyzer : default : type : snowball language : english 在我的 elasticsearch.yml 文件中设置时。

我想将它与我安装的 soundex 结合起来,所以我尝试了这个:

index : analysis : analyzer : default : type : custom tokenizer : standard filter : [standard, lowercase, soundex_filter, stemming] filter : soundex_filter : type : phonetic encoder : soundex replace : true stemming : type : snowball language : english

但没有成功,它们似乎都不起作用(没有词干或 soundex)

有人在组合过滤器方面取得了成功吗?

0 投票
1 回答
217 浏览

mysql - VB.NET 格式的 Mysql Soundex

我有这些代码行,我试图查看我的数据库以获取 soundex 结果,但显然它没有返回任何结果。

它甚至不会在 MessageBox 上引发异常。

为了确保在我进行上述查询之前从我的数据库返回数据,我做了select * from table_name

谢谢!

0 投票
1 回答
389 浏览

sql - SOUNDEX 函数在 SQL Server 2012 中似乎损坏了

以下语句SOUNDEX在 SQL Server 2012 中返回不同的值,而在 SQL Server 2008 中生成相同的值:

有没有其他人在 SQL Server 2012 中遇到过这个问题并且知道如何解决它?