问题标签 [phoneme]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 发音评估的音素检测
我正在为聋儿学习泰语进行申请。该应用程序为他们提供了一些基本单词(1 或 2 个音节),用于练习发音和反馈单词的可理解程度。所以我专注于可理解性,而不是卓越。
我在这个领域很新。现在,我正在使用语音转文本技术,它正是谷歌的云语音转文本。由于它是语音识别,所以它提供了可能的最终匹配词。然而,自然而然,聋儿会发好元音而不是辅音。有时元音是正确的,但辅音对于发音的单词来说并不完全正确,这在某种程度上是可以理解的,语音识别不会提供任何帮助。我希望该应用程序提供可懂度方面的反馈,这也可以告诉他们哪些发音的音素是正确的,哪些是错误的。所以语音到文本技术不太适合这个应用程序,我正在寻找使用语音中的音素检测在可理解性方面的发音评估。
根据我的研究,我发现这项工作与我想要的非常相似,但我不知道如何为泰语实现它。
因此,请任何人指导我如何从话语中检测音素并根据可理解性评估它们,或者对其他更好的方法提出任何建议。移动应用程序(Android、iOS)的离线解决方案更可取。
python - 查找音素和持续时间
我想知道是否有人知道从文本中查找音素的 python 工具,以及它们的持续时间。
简而言之,我想要一个像 aeneas 这样的强制对齐工具,但我想要音素及其持续时间。
谢谢!
ibm-cloud - ibm-cloud speech-to-text:是否可以为自定义词汇指定音素?
我们需要使用大量已经音位转录的自定义词汇表构建一个自定义模型,但是当前用于指定自定义单词的 API 没有用于指定音位字符串而不是手动生成的临时“sounds_like”正字法字符串的选项。由于我们还没有找到任何可靠的工具来按规则从音素字符串生成等效的“听起来像”字符串,这对我们能够成功使用 IBM 语音到文本引擎来说是一个真正的障碍。
是否有公认的语音/音位字母表和可用的 API 机制来指定音素字符串而不是另一种正字法,以指示通过 IBM 云语音到文本 API 将自定义单词添加到自定义模型时的发音?(即类似于 IPA 以及在 IBM 的文本转语音 API 中使用它的机制?)
(或者,IBM 或那里的任何人是否有一个很好的工具可以将音素序列转换为正字法,保证被他们的 ASR 引擎重新转换回相同的音素字符串?)
c# - C#中无法识别来自Jsonstream的音素
我在 C# 中的 JsonStream 有一点问题
我正在我的存储中读取一个 Json Blob,里面有这个:
在 C# 中:
如果我记录我的 JsonStreamer,我会收到:
我遗漏了一些东西来编码这个问号,没有 ??? 接收正确字符串的解决方案是什么。
谢谢陌生人!
pytorch - 改善模型的发音
我微调了Nvidia Tacotron2的数据集。虽然工作得相当好,但有一些单词发音错误(我训练了一个德语数据集)。
我有另一组由同一扬声器制作的具有相应 metadata.csv 的波形文件
我如何过滤它以主要包括那些教模型缺少的发音的句子?
python - How to get phonemes from Google Cloud API Text-to-Speech
I am following the Google Cloud API Text-to-Speech Python tutorial. I would like to know if there is a way to return the phonemes and their duration, an intermediate step in generating the interpreted speech. Is that possible? If so, can you please refer me to the documentation and hopefully some sample code that does this. I searched and could not find anything that already answered my question.
Thanks! gma
python - 拼音 Levenshtein 距离的字符串子类
我正在尝试创建一个字符串子类,以便将Arpabet 符号表示为单个字符。这是我到目前为止得到的:
我对这两种计算的期望输出是 1 的 Levenshtein 距离。有什么提示或建议吗?
c# - System.Speech.Recognition - 设置 SpeechRecognitionEngine 返回 SAPI 音素而不是 IPA
我正在编写一个 .Net 核心(3.1)库,并正在使用该System.Speech.Recognition
库将一个人录制的语音中的不同单词分解为他们的构成音素。
我的(工作)代码示例如下:
我的问题是返回ipaSpeechRecognitionEngine
格式的音素,而不是我想要的sapi格式(使用此 Microsoft 参考中描述的格式)。
有没有办法以sapi格式SpeechRecognitionEngine
返回音素?如果没有,是否有一个易于使用的转换器?
audio - Can Mandarin pronunciation be coded by ARPABET phone set?
The code doesn't need to be exactly correct. A pronunciation in English can be used to represent a similar pronunciation in Chinese, e.g. /ʈ͡ʂ/ can use "CH" to represent.