问题标签 [phoneme]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6437 浏览

windows-7 - Win7 64下使用SAPI 5.1

我正在编写一个基于 Annosoft 控制台程序的自动唇形同步工具(链接到 Annosoft 工具)。本程序使用 SAPI 5.1。对我来说,它在 Win XP 32 位上运行良好。但是有没有办法让它在 Win7 64 位系统下工作?

PS控制台程序是开源的,但我对SAPI和音频处理不是很熟悉,所以重写整个代码对我来说并不是一个真正的选择。

编辑:恐怕我的语言表达并没有真正让我的问题对其他人有意义,所以:是否有可能让 Windows SAPI 5.1 在 Windows 7 64 位中工作?如果是 - 如何?

0 投票
2 回答
1446 浏览

speech-recognition - 在 Sphinx4 中将语音解码为音素

我可以使用 CMUSphinx4 将特定语音解码为音素并将这些音素用于进一步的实现吗?

0 投票
4 回答
3517 浏览

dictionary - 来自 CMU 发音数据库的押韵词典

我正在寻找一个免费或开源的押韵数据库。

我找到了 CMU 发音“数据库”及其一系列应用程序,但我无法理解它们或弄清楚数据的来源。

我只需要一个包含单词及其音素的简单文本文件。

这里有人知道我在哪里可以找到或者我会从哪里开始从 CMU 文件中导出这样的列表吗?

0 投票
1 回答
512 浏览

vb.net - 使用 SSML 音素元素

我正在使用 Visual Basic.net Ultimate,并且正在开发 TTS 应用程序。可以请我对音素元素有一些帮助吗?

这是我想讲的文字:

当你释放肩膀和颈部的紧张感时,再深吸一口气……然后呼出。

目前,“呼吸”这两个词似乎一起运行,听起来像“呼吸稀薄”我想(通过 SSML)修改此语句,使这两个词听起来像“呼吸”。

通过 SSML 执行此操作的最佳方法是什么?我认为音素元素是最好的方法。

这是我发现的一个发音番茄的例子:

上述代码的 ph 部分之间的文本似乎完全是另一种语言(:))。我如何使用这种语言拼出一个单词?

0 投票
0 回答
314 浏览

ios - 用于语音 ios 音频指纹识别的 API

任何有关为 iOS 音频指纹识别 API 寻找音节和单个音素的建议/指针。

0 投票
2 回答
1526 浏览

audio - 是否有任何开源音素集(用于语音合成)?

我正在尝试制作一个超级基本的语音合成器,我需要某种形式的音素音频文件,以便我可以将它们拼凑在一起并构建单词。是否有任何我可以使用的开放音素集?

0 投票
1 回答
122 浏览

python - 对列表中的当前、先例和后继元素的操作

我想在一个列表上应用一个操作,它一次应该跨越三个元素。

元素是字符串,由数字和字符组成,例如

所以一个示例字符串会像这样

每个字符串中的数字是一个开始时间(下一个元素的开始时间标志着前一个元素的结束时间),字符实际上是音素。我现在想要实现的是一次计算三个音素的时间。所以我将从第一个元素开始,即'0.234 sil'. 由于它没有任何前面的元素,我假设起点是0. 现在我看一下随后的+1 元素,即'0.822 ax',因此我知道sil-dh跨度从0-0.822. 下一个是sil-dh-ax,它跨越0.234-1.122,依此类推。如果没有后继+1 元素或者它是最后一个元素,则应该使用该end_point值。所以倒数第二个结果r-ih-p的范围是1.45-2.56. 对于ih-p具有 range的最后一个元素1.890-2.56

我希望这是可以理解的。有没有一种“简单”的方法可以做到这一点?某种过滤器?

0 投票
4 回答
3798 浏览

c# - .Net 中对音素的语音

问题是我想用 C# 语言获取音频语音的音素。假设您有一个像“x.wav”这样的音频文件,上面写着“你好,亲爱的 Shamim”。我想提取语音的所有音素及其相对时间。如下图所示:

音素编辑器

我使用System.Speech了库(recognitionsynthesis命名空间),但我没有找到我想要的。现在不要弄错了!我不想要句子“hello Dear Shamim”的音素,我想从说话的未知音频输入和英语句子中提取音素。我试过System.Speech.Recognition了,但它试图从音频文件中提取单词,而不是音素!正如您可能猜到的那样,这些词有 30% 是错误的!;)

0 投票
2 回答
1594 浏览

macos - 在 OSX 上合成音素对

我需要创建 144 个音素对的波形文件,例如“Da Di Du, Beh Bi Burr, ...”

具体来说,我需要每个人保持一个恒定的音高,这样我就可以对它们进行音高转换来制作音符(如果我能输入音高值会更好!)。

我真的不想录制我试图唱歌的 144 个 .WAV 文件。

我可以使用 OSX 的内置语音合成 API 来做到这一点吗?

如果没有,我还有其他方法可以做到吗?

编辑:我不需要任何特定的质量等级。重要的是,每个话语都是可区分的,并且音调正确。

编辑:我将尝试在下面解决这个问题,如果我得到满意的结果,我会将其分解为答案。

Speech Synthesis Programming Guide似乎应有尽有,它在这里谈到了使用轮廓控制音高,这里输入语音输入。

但是,要弄清楚整个 API 并编写一个 OS X 项目来完成它,将需要做很多工作。所以我对命令行选项或使用现有的合成器很感兴趣。

CRGreen 的回答用户参数“说”我在手册页中找不到记录:

刚刚在这里找到了一个例子:http: //hints.macworld.com/article.php?story= 20120204172337402

编辑:音素https://apple.stackexchange.com/questions/53858/in-terminal-how-to-get-say-to-say-things-right-ie-using-custom-phonetics

0 投票
1 回答
101 浏览

java - 转换相似的音词部分

我无法在此处搜索正确的术语来解决以下问题;我确定它已经完成了,我只是找不到合适的术语来表达这个问题!

我基本上是在尝试创建一个分类器,它将获取单词比较输出(例如,来自 Levenstein 距离的一些输出)并确定单词是否足够不同。一个重要的输入可能类似于 soundex 比较。我遇到的麻烦是为算法创建训练集(在这种情况下是 SVM)。我有一长串名字,我需要对它们进行一些变异(基于单词中的相似发音)。

例如John,并且Jon将是一个突变,我可以在测试集中将其标记为等效。John并且Johann有足够不同的声音和字母距离被认为是不同的。

所以我有点要求是一种实现音素变化生成器的方法,但需要能够保留英文字母结构。

即使是简单的翻译也可能就足够了,例如“f”可以(有时)被“ph”替换。我正在用 Java 做这个,所以任何在这个方向上的提示都会很棒!谢谢。

编辑

这是迄今为止我遇到的最接近的:http ://www.isi.edu/natural-language/people/hovy/papers/07IJCAI-spelling-variants.pdf