问题标签 [phoneme]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
encoding - 是否存在可发音的编码?
我正在使用 UUID,但它们的阅读、写作和交流并不是特别好。所以我想对它们进行编码。我可以使用 base64 或 base32,但无论如何它们都不容易:base64 有大写字母和符号。Base32 好一点,但你仍然可以获得笨拙的东西。
我想知道是否有一种很好且干净的方法可以将数字编码为可口的音素,以便获得更好的可读性并希望有一点压缩。
ruby - 检测 Ruby 中发音相似的单词
我知道 SOUNDEX 和 (double) Metaphone,但这些并不能让我测试整个单词的相似性 - 例如“Hi”听起来与“Bye”非常相似,但这两种方法都会标记它们完全不同。
Ruby 中是否有任何库或您知道的任何方法能够确定两个单词之间的相似性?(布尔值是/不相似,或数字 40% 相似)
编辑:如果有一种简单的方法可以“插入”不同的方言或语言,则可以获得额外的奖励积分!
delphi - 如何在语音识别中获取音素?
如果可能的话,我正在使用使用 Delphi2009 的 vista 和 windows 7 上的内置语音识别来进行语音识别以显示音素及其波形。欢迎使用其他编程语言。
speech-recognition - 从音频(语音)文件中提取音素
我正在寻找一个工具包/库,可以让我从音频文件中提取音素。我在 CMU Sphinx 网站上看到 sphinx3 可用于输出音素,但是我无法在我的 windows 盒子上成功构建它。
除了图书馆,建立自己的图书馆的最佳方式是什么?
java - getX() 在 java.awt.Rectangle 中有私有访问权限吗?
为什么以下代码会生成错误消息:getX() has private access in java.awt.Rectangle
(int)dest.getX(), (int)dest.getY(), (int)dest.getWidth(), (int)dest.getHeight()
根据文档,Rectangle
确实有一个公共方法getX()
。
ios - iOS / C:检测音素的算法
我正在寻找一种算法来确定实时音频输入是否与 144 个给定(并且非常不同)音素对中的一个匹配。
最好是完成这项工作的最低级别。
我正在为 iPhone / iPad 开发激进/实验性音乐培训软件。
我的音乐系统包括 12 个辅音音素和 12 个元音音素,在这里演示。这就产生了 144 个可能的音素对。学生必须根据视觉刺激唱出正确的音素对“laa duu bee”等。
我对此进行了大量研究,看起来我最好的选择可能是使用 iOS Sphinx 包装器之一(iPhone App › 添加语音识别? 是我找到的最佳信息来源)。但是,我看不出我将如何调整这样的包,任何有使用这些技术经验的人都可以给出所需步骤的基本概要吗?
用户是否需要培训?与包含数千个单词的完整语言模型以及更大、更微妙的音素基础相比,我不会想到,因为这是一项如此基本的任务。但是,让用户训练 12 个音素对是可以接受的(不理想):{ consonant1+vowel1, consonant2+vowel2, ..., consonant12+vowel12 }。完整的 144 太累赘了。
有没有更简单的方法?我觉得使用功能齐全的连续语音识别器正在使用大锤来破解坚果。使用可以解决问题的最少技术会更加优雅。
所以我真的在寻找任何识别音素的开源软件。
PS我需要一个几乎可以实时运行的解决方案。所以即使他们在唱这个音符,它首先会闪烁以表明它拾取了所唱的音素对,然后它会发光以说明他们是否在唱正确的音高
api - API将语音分解为音素/在给定语音样本的情况下合成新语音?
你知道那些技术极客录制某人的声音,然后他们的软件将其分解成音素的电影吗?然后他们可以用它来输入任何短语,并使目标看起来好像在说它?
该软件是否存在于 API 版本中?我什至不知道谷歌是什么。
nlp - Elman SRN 的单词/音素语料库(英语)
我正在写一个 Elman 简单循环网络。我想给它一个单词序列,每个单词都是一个音素序列,我想要大量的训练和测试数据。
所以,我需要的是一个英语单词的语料库,连同它们组成的音素,写成 ARPAbet 或 SAMPA 之类的东西。英式英语会很好,但只要我知道我在处理什么就不是必需的。有什么建议么?
我目前没有时间也没有兴趣编写一些从口语或书面数据中派生出一个单词的音素的东西,所以请不要提出这个建议。
注意:我知道CMU Pronouncing Dictionary,但它声称它仅基于 ARPABet 符号集 - 任何人都知道是否真的有任何差异,如果有,它们是什么?(如果没有,那么我可以使用它......)
编辑:CMUPD 0.7a符号列表- 元音可能有词汇重音,并且有变体(ARPABET 标准符号)表明这一点。
speech-recognition - 使用pocketsphinx提取音素
是否可以在 pocketsphinx 的帮助下提取口语的音素?
java - CMU Sphinx4 音素听写
如何将 sphinx4 配置为只能检测听写中的音素?
我已经阅读了部分结果
“您可以通过在解码器中设置配置变量 'featureBlockSize' 来控制触发结果监听器的频率。”
但我的问题是总是需要一个语法,比如 helloworld 示例中的 hello.gram。我需要能够从连续语音中检测和识别音素。