问题标签 [metaphone]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
74 浏览

python - 使用行的 jellyfish.metaphone() 值填充 CSV 中的行

我是一个超级蟒蛇菜鸟。

我正在尝试确定名称列表的变音位代码。稍后将比较这些代码以找到潜在的相似名称。

jellyfish 模块很适合我的需求,我可以在创建列表的时候获取变音位码,如下:

但是,我需要获取约 3000 个名称列表的变音位代码。我用我需要的列标题和现有的名称列表创建了一个 .csv。它看起来像这样:

因此,理想情况下,我需要 FirstWordMeta = 每行 FirstWord 列中单词的变音位代码,StMeta = 每行 ST_NAME 列中单词的变音位代码。我希望输出 .csv 看起来像这样:

我已经尝试过 csv 模块,但我不明白在使用 jellyfish.metaphone() 时如何合并引用特定列

0 投票
0 回答
81 浏览

elasticsearch - Metaphone3 分析 - ElasticSearch 7.6 的语音?

我想对analysis-phonetic进行一些更改。我想使用 Metaphone3 而不是 Metaphone(内置),因为它使我的 TestCase 更加准确。如果它是开源的,有人可以将存储库的链接发送给我。我无法在 GitHub 上找到源代码。

我有最新的 jar 文件,但没有源代码(https://github.com/elastic/elasticsearch-analysis-phonetic)。我需要可以在 elasticsearch 7.6.0 上运行的最新代码。

上面的 GitHub 存储库仅适用于 elasticsearch 1.7。从那时起,Elasticsearch 发生了很大变化

我已经尝试过使用分析语音的旧版本代码,因为我无法为 Elasticsearch 版本 7.6.0 找到合适的源代码

  • 我对分析语音进行了更改(添加了 Metaphone3)并使用 Maven 编译了代码。我使用 elasticsearch-plugin install 命令安装了 zip 文件。它安装成功,但弹性搜索崩溃了。在我卸载插件之前,Elasticsearch 没有启动。
0 投票
1 回答
721 浏览

elasticsearch - 如何决定在 Elasticsearch“语音令牌过滤器”中为哪种语言使用哪个编码器?

我在 Elasticsearch 中使用了带有“Phonetic Token Filter”的Metaphonesoundex编码器。

Metaphone适合英语单词。

Soundex适用于英语以及印地语,也许还有许多其他语言

我想知道哪些编码器最适合印地语以及其他印度语言(如果可能)?

  • 声讯
  • 变音器
  • 双变位音
  • 精炼的_soundex
  • caverphone1 - 英语(新西兰本地化)
  • caverphone2 - 英语(新西兰本地化)
  • 科隆 - 德语
  • nysiis - 即兴的 Soundex
  • koelnerphonetik - 德语
  • haasephonetik - 德语
  • beider_morse - 英语和多种欧洲语言
  • daitch_mokotoff - 斯拉夫和意第绪语姓氏

由于Elasticsearch 网站上没有列出我们应该为哪种语言选择哪种编码器。

还请告诉我您已经使用了哪些编码器以及用于哪种语言。

0 投票
1 回答
330 浏览

php - 如何进行全文搜索

我想用 metaphone 进行全文搜索。一切工作正常。我有4个领域,即。

以上是样本数据。在这里,我想使用 match()against() 来使用变音位和全文搜索。一切正常。然而,像 Bag、Job 和 Car 这样的词被忽略为默认的最小字符 4。现在的问题是我使用共享主机,而主机提供商告诉我他不能为我提供 mysql 配置文件,他们也不能这样做配置文件 ft_min_word_len = 2 中的 this 不是一个选项。

我用的是正常的

数据库中的所有信息都是用户生成的,因此我无法监督。由于我使用 mysql、PHP 和共享主机。我不能使用任何弹性搜索库或类似 solr 的东西。我已经搜索了谷歌和堆栈溢出但是我无法得到任何东西

一种选择是使用 LIKE 运算符,但如果可能,我想使用 MATCH() AGAINST() 。

请帮助我解决一些问题或替代路线。

0 投票
1 回答
66 浏览

pyspark - 变量等于pyspark上的doublemetaphone


我想在 **pyspark** 上的数据集上使用函数 **"doublemetaphone"**。
期望结果是一个布尔值:TRUE 或 FALSE。
但是 *@udf("bool")* 不起作用,还有其他方法吗?
0 投票
1 回答
222 浏览

java - 为什么Java的Double Metaphone只给出四个字母代码?

我想使用 DoubleMetaphone 来获取给定字符串的语音编码。例如:

结果:计算机 -> KMPT

当我尝试对更长的字符串进行编码时,就会出现问题。

结果:dustinhoffmanisanactor -> TSTN

显然,它正在使用前 4 个编码字符并停止。在这种情况下,达斯汀 -> TSTN。

我使用了 Double Metaphone 的 Python 实现,它按预期工作。

0 投票
1 回答
68 浏览

java - 在法语 java apache 中配置双变音器

我想使用函数 java apache DoubleMetaphoneEqual 但使用法语?我在我的 talend 工作中作为例行公事使用

你能告诉我我应该在我的代码中添加什么吗?对于示例 JAID MOHAMED,JAWAD MOHAMED 给出了 true 并且在法语中应该是 false

谢谢

0 投票
1 回答
42 浏览

postgresql - 具有字符串比较的连接表的性能

我有两张大桌子,我需要把它们放在一起。匹配不应该是一个明确的比较。我使用了三元组,Levenshtein 的公式,但我的表现很差。也许有人可以帮助提高性能。表 A 的大小约为 20 万行,表 B 的大小约为 60 万行。

所有这些选项的性能都很差(接近 7 小时)。我尝试创建索引,但没有得到太多加速