问题标签 [phoneme]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
windows-7 - Win7 64下使用SAPI 5.1
我正在编写一个基于 Annosoft 控制台程序的自动唇形同步工具(链接到 Annosoft 工具)。本程序使用 SAPI 5.1。对我来说,它在 Win XP 32 位上运行良好。但是有没有办法让它在 Win7 64 位系统下工作?
PS控制台程序是开源的,但我对SAPI和音频处理不是很熟悉,所以重写整个代码对我来说并不是一个真正的选择。
编辑:恐怕我的语言表达并没有真正让我的问题对其他人有意义,所以:是否有可能让 Windows SAPI 5.1 在 Windows 7 64 位中工作?如果是 - 如何?
speech-recognition - 在 Sphinx4 中将语音解码为音素
我可以使用 CMUSphinx4 将特定语音解码为音素并将这些音素用于进一步的实现吗?
dictionary - 来自 CMU 发音数据库的押韵词典
我正在寻找一个免费或开源的押韵数据库。
我找到了 CMU 发音“数据库”及其一系列应用程序,但我无法理解它们或弄清楚数据的来源。
我只需要一个包含单词及其音素的简单文本文件。
这里有人知道我在哪里可以找到或者我会从哪里开始从 CMU 文件中导出这样的列表吗?
vb.net - 使用 SSML 音素元素
我正在使用 Visual Basic.net Ultimate,并且正在开发 TTS 应用程序。可以请我对音素元素有一些帮助吗?
这是我想讲的文字:
当你释放肩膀和颈部的紧张感时,再深吸一口气……然后呼出。
目前,“呼吸”这两个词似乎一起运行,听起来像“呼吸稀薄”我想(通过 SSML)修改此语句,使这两个词听起来像“呼吸”。
通过 SSML 执行此操作的最佳方法是什么?我认为音素元素是最好的方法。
这是我发现的一个发音番茄的例子:
上述代码的 ph 部分之间的文本似乎完全是另一种语言(:))。我如何使用这种语言拼出一个单词?
ios - 用于语音 ios 音频指纹识别的 API
任何有关为 iOS 音频指纹识别 API 寻找音节和单个音素的建议/指针。
audio - 是否有任何开源音素集(用于语音合成)?
我正在尝试制作一个超级基本的语音合成器,我需要某种形式的音素音频文件,以便我可以将它们拼凑在一起并构建单词。是否有任何我可以使用的开放音素集?
python - 对列表中的当前、先例和后继元素的操作
我想在一个列表上应用一个操作,它一次应该跨越三个元素。
元素是字符串,由数字和字符组成,例如
所以一个示例字符串会像这样
每个字符串中的数字是一个开始时间(下一个元素的开始时间标志着前一个元素的结束时间),字符实际上是音素。我现在想要实现的是一次计算三个音素的时间。所以我将从第一个元素开始,即'0.234 sil'
. 由于它没有任何前面的元素,我假设起点是0
. 现在我看一下随后的+1 元素,即'0.822 ax'
,因此我知道sil-dh
跨度从0-0.822
. 下一个是sil-dh-ax
,它跨越0.234-1.122
,依此类推。如果没有后继+1 元素或者它是最后一个元素,则应该使用该end_point
值。所以倒数第二个结果r-ih-p
的范围是1.45-2.56
. 对于ih-p
具有 range的最后一个元素1.890-2.56
。
我希望这是可以理解的。有没有一种“简单”的方法可以做到这一点?某种过滤器?
c# - .Net 中对音素的语音
问题是我想用 C# 语言获取音频语音的音素。假设您有一个像“x.wav”这样的音频文件,上面写着“你好,亲爱的 Shamim”。我想提取语音的所有音素及其相对时间。如下图所示:
我使用System.Speech
了库(recognition
和synthesis
命名空间),但我没有找到我想要的。现在不要弄错了!我不想要句子“hello Dear Shamim”的音素,我想从说话的未知音频输入和英语句子中提取音素。我试过System.Speech.Recognition
了,但它试图从音频文件中提取单词,而不是音素!正如您可能猜到的那样,这些词有 30% 是错误的!;)
macos - 在 OSX 上合成音素对
我需要创建 144 个音素对的波形文件,例如“Da Di Du, Beh Bi Burr, ...”
具体来说,我需要每个人保持一个恒定的音高,这样我就可以对它们进行音高转换来制作音符(如果我能输入音高值会更好!)。
我真的不想录制我试图唱歌的 144 个 .WAV 文件。
我可以使用 OSX 的内置语音合成 API 来做到这一点吗?
如果没有,我还有其他方法可以做到吗?
编辑:我不需要任何特定的质量等级。重要的是,每个话语都是可区分的,并且音调正确。
编辑:我将尝试在下面解决这个问题,如果我得到满意的结果,我会将其分解为答案。
Speech Synthesis Programming Guide似乎应有尽有,它在这里谈到了使用轮廓控制音高,在这里输入语音输入。
但是,要弄清楚整个 API 并编写一个 OS X 项目来完成它,将需要做很多工作。所以我对命令行选项或使用现有的合成器很感兴趣。
CRGreen 的回答用户参数“说”我在手册页中找不到记录:
刚刚在这里找到了一个例子:http: //hints.macworld.com/article.php?story= 20120204172337402
java - 转换相似的音词部分
我无法在此处搜索正确的术语来解决以下问题;我确定它已经完成了,我只是找不到合适的术语来表达这个问题!
我基本上是在尝试创建一个分类器,它将获取单词比较输出(例如,来自 Levenstein 距离的一些输出)并确定单词是否足够不同。一个重要的输入可能类似于 soundex 比较。我遇到的麻烦是为算法创建训练集(在这种情况下是 SVM)。我有一长串名字,我需要对它们进行一些变异(基于单词中的相似发音)。
例如John
,并且Jon
将是一个突变,我可以在测试集中将其标记为等效。John
并且Johann
有足够不同的声音和字母距离被认为是不同的。
所以我有点要求是一种实现音素变化生成器的方法,但需要能够保留英文字母结构。
即使是简单的翻译也可能就足够了,例如“f”可以(有时)被“ph”替换。我正在用 Java 做这个,所以任何在这个方向上的提示都会很棒!谢谢。
编辑
这是迄今为止我遇到的最接近的:http ://www.isi.edu/natural-language/people/hovy/papers/07IJCAI-spelling-variants.pdf