问题标签 [phonetics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
spell-checking - Metaphone 3 算法是什么?
我想自己编写 Metaphone 3 算法。有说明吗?我知道源代码可以出售,但这不是我想要的。
machine-learning - metaphone 与 soundex 与 NYSIIS
我正在尝试提出一个隐式拼写检查器,它将使用输入单词到某种更通用的语音表示的映射来解释可能发生的拼写错误,基本上是一个搜索栏,它会自动在一定程度上更正你的拼写. 我一直在研究的两件事是 metaphone、nysiis 和 soundex,但我真的不知道哪个更适合这个应用程序。
我希望有更多的匹配而不是更少的匹配,并且我希望匹配更加通用,因此我正在考虑使用 soundex,这似乎是比原始变音位更近似的映射,但我真的不知道模糊性的差异有多大。我知道 nysiis 与 soundex 非常相似,但我不知道它们有多相似,或者 nysiis 与 metaphone 相比如何。
我也在寻找最快执行的解决方案。我知道这些语音映射器通常很快,但我不确定哪个会最快,考虑到我希望能够在不增加搜索时间的情况下检查拼写,速度是一个考虑因素。想法?
algorithm - 如何检查字符串是否可以发音?
我想以编程方式检查字符串是否可以发音或需要拼写。
例如,internationalization
可以读出,但i18n
不能,也不可以hhdirgxzf
。
我可以想到一些简单的启发式方法,例如检查字符串是否包含非字母字符,但我希望有一种更健壮和科学的方法来做到这一点。是否有算法方法可以根据发音的难易程度对字符串进行评分?
相关:有没有办法对单词的发音难度进行排名?,但是我没有列表,也无法预先计算。
根据评论更新。
- 由于我是说英语的人,我对英语很感兴趣,但我可以想象一种基于声音和说话方式而不是特定语言特征的算法。
- 发音是指可以自然读出字符串,可以发音
hhdirgxzf
但听起来不是一个自然语言单词,它需要被分解。 - 我想到的一个特定用例是向我发送字符串的地方,我想使用基本的文本到语音系统来大声朗读它们。我想确定让 TTS 系统尝试发音的字符串中的哪些标记,以及让它拼出的标记,如果不自信,就会在拼写方面犯错。
python - 如何在 Python 中实现多词名称的拼音算法
我读过很多帖子,例如:
我已经通过并找到了双变位密码。
但是双变音位算法返回一个给定字符串的元组,假设该字符串是一个单词。有谁知道一个语音算法可以处理同名的多个单词?如果不是,最好的主意是简单地编写一个脚本来计算该列中每个单词的字数,然后在我的数据集中最常出现的单元格中的单词上运行双变音?
c# - lucene.net 语音过滤器
我正在尝试将文本数据存储到 lucene。
搜索应该是拼音!
我应该在哪里添加语音过滤器?
问候,英戈
java - 我怎样才能让这个 switch 语句使用扫描仪工作?
我正在尝试编写一个程序,它将字母表中的任何字母(大写或小写)转换为 Phontic 字母表。例如,如果我输入“A”或“a”,我的程序会给我(将其更改为)“Alpha”。我对这个和 switch 语句做了很多研究,但我一直卡住。我意识到我不能在扫描仪中使用“char”。但是,当我将 'char' 更改为 'String' 时,我的 switch 语句会变得混乱(特别是我的代码中的toUpperCase有下划线。我看不到我的错误。这是我到目前为止所做的:
ios - iOS中是否有任何用于识别语音相同声音的库
我正在尝试构建一个 iOS 应用程序。在其中一个屏幕中,用户可以在搜索栏中输入一些内容,而我必须对同一个单词的不同拼写采取相同的操作。
例如:用户可以输入"elephant"或"alephant"或"elefant"。我必须对所有这三个词采取相同的行动。
有没有将这些词识别为相似词的库?我不能使用拼写检查器,因为我也需要英语以外的其他语言。我做了一些研究,发现有一些语音算法,如 Text::soundex 可以在服务器端实现这一点。想知道是否有适用于 iOS 的库?
提前致谢 !!
phonetics - 计算机生成的声音和人类声音的声音相似性
我正在寻找一种算法来通过它们的语音来比较两个声音文件。我想评估某种分数(例如 0:没有相似性;100:相同的声音)。因此,我将计算机生成和录制的人声“你好”加载到 Audacity 中(我知道,它不是那么专业……)并观察海浪。
https://dl.dropbox.com/s/p8o8tpsayo9xr14/hello.png(不幸的是,我不允许嵌入图像)
尽管两者听起来完全一样,但波浪并没有那么匹配。
有没有办法检测这两个波之间的相似性并计算提到的分数?
search - Solr拼音搜索没有找到任何东西
我的 solr 4.1.0 安装没有找到任何带有语音编码的东西。schema.xml 的摘录:
text_suggest
或多或少是原始文本的小写版本,用solr.StandardTokenizerFactory
and标记solr.WordDelimiterFilterFactory
。语音编码器是一种专门用于德语单词的编码器。同义词过滤器处理一些特定领域的词。我受到http://www.cominvent.com/2012/01/25/super-flexible-autocomplete-with-solr/的启发。
我用“Geprüfter Betriebswirt”和 textsuggest 中的其他项目索引一个条目。现在,当我搜索“Betriebswirt”时,我得到了预期的结果。然而,搜索“Betribswirt”这只是原始德语单词的一个小错误拼写,solr 报告 0 命中。
在 solr 的管理 gui 的分析视图中,我尝试了“Betriebswrt”和我的字段类型的不同拼写text_phonetic_do
,它们都被编码为相同的数字流:
- betriebswirt => 12718372
- betribswirt => 12718372
- betribswiirt => 12718372
- petribswiert => 12718372
因此编码(分析时间和搜索时间)按预期工作。但是如上所述,solr 在搜索拼音变体时没有找到任何文档。
我使用查询视图,甚至查询textphon:Betriebswirt
也不返回单个结果。完整的查询结果(我去掉了计时部分)如下所示:
我不知道为什么它什么也没找到。如果我正确理解调试输出,甚至会搜索索引以查找正确的(阅读:语音编码)令牌。
那么我错过了什么?谁能指出我正确的方向?谢谢