问题标签 [speech-synthesis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text-to-speech - 谷歌的文本到语音引擎的声音?
你们中的大多数人可能知道谷歌翻译的文本到语音合成器,因为你可以在这里以编程方式访问:
我的印象是它有时会使用 espeak,但在主要语言中,质量比这要好得多。有人知道谷歌在用什么,或者他们在用什么声音吗?显然这不是正常的,也不是 mbrola espeak 的声音。
iphone - 如何在 iPhone 中合成音频
我需要合成一个声音,以便它可以用来说出提供给它的文本。如何在 iPhone 中完成。我使用了 Sphinx 语音合成器和其他语音合成器,但它们有一些用于将文本转换为语音的预定义语音。在我的应用程序中,我需要我提供的语音回复。
关于从哪里开始的任何建议都非常有帮助。
提前致谢。
text-to-speech - TTS - 文本到语音合成系统
我正在尝试制作一个包含 TTS - 文本到语音合成系统功能的 html 页面。请向我推荐一些在线好的演示。
另外请让我知道谷歌是否为 TTS - 文本到语音合成系统提供任何 api。
非常感谢。
speech-synthesis - 从哪里开始语音合成
你们可能对谷歌的 TTS 引擎很熟悉:这里。
我对这样的东西如何能够分析输入并挑选出不同的音节/词性有一个基本的了解,但是如果我想为 TTS 系统创建一个“声音”,我应该从哪里开始呢?
speech-recognition - 文本到语音(语音生成)和语音到文本(语音识别)API?
是否有适用于桌面或浏览器环境的已知 API 的完整列表?
audio - 高质量,情感,流畅和可变的文本到语音引擎?
在查看了一些服务/工具之后,我得出了一个结论。大多数 Text-to-Speech 工具的技术含量太高、太机械化——换句话说,就是质量差的 c 语音。
是的,最重要的是,看起来它们带有“硬编码”语音模板,因此缩短了品种/定制。有些工具允许您设置阅读速度和音高,但这还不够。
我对情感方面背后问题的猜测——很难从纯文本中判断情感,如果只是一两句话就更难了。另外,好的 ol' PC 是一台机器——机器没有情感,但那是另一回事。
最困扰我的是,质量。例如,有一些工具可以用来切断单词的顶点,从而产生这些技术性的声音。感觉句子结构有问题。是的,当人们正在研究这些工具时,我想知道,是什么让他们无法再努力改进这些工具……切断顶点,这可不是小事!另外,必须记住,一个好的、高质量的文本到语音转换软件是值得的,嗯……很多!因此产生了一个非常有利可图的产品。
哦,在流利的情况下,我隐藏了问题,感叹等。(可能这些不适用于流利程度,但我不是英语母语,如果是这种情况请见谅。)
我研究过的工具列表:
相当令人印象深刻,但仍有改进空间(++)
- Loquendo:缺乏语音多样性,有一些小的顶点/流利问题(取决于句子),太多的咳嗽和例子中的借口!
- Nuance Vocalizer:虽然仍然缺乏多样性,但提供的一些声音是值得的。
也可以合作以获得更多资源,然后开发不同但几乎相同的产品(--)
- eSpeak:最好的机器人之一,因此程序标志(?!)
- Natural Reader(愚蠢的自动播放!!):嗯,它有一些流畅性,但仍然有那种技术感。
- iSpeech:笑得好用英文文本将声音设置为日语。我敢打赌日本人对此不是很高兴。
-倒谱+增强的声音......加上增强的声音会产生很好的糟糕结果,所以,除了大约 5 个声音之外,没有任何东西得到增强。
- AT&T:流利度不错,但句子结尾和机器人太多有问题!
- LumenVox TTS: 看起来像是来自有很多语音工具的背景,但仍然会产生机器人声音。
- 还有一些...
如果我错过了值得一看的东西,请分享。可以是免费的、商业的、超级昂贵的……只要它有效,我就感兴趣!
还有问题(-s)..
- 您认为这些声音的质量、流畅度和多样性背后的主要问题是什么? 由于情感方面很难判断,我不介意你跳过它,但如果你有一两个想法,我不介意你分享你的想法
- 文字是如何转化为语音的? 比如,这些工具背后使用了哪些算法?也许一两个新的理论会派上用场。
- 这些实际上是不同的引擎/驱动程序还是同一驱动程序/引擎的不同语音模式?
- 只是我,还是第一个 Text2Speech 工具之间的质量多年来没有太大(或根本没有)变化? 并且不得不承认,这个老式的 Apple 工具比 2000 年以上的一些工具提供了更好的结果,至少在将视频与我所研究的内容进行比较时。)
objective-c - Mac OS X 文字转语音的性别
我正在制作一个应用程序,我试图在 Mac OS X 中获取所有不同的声音,然后按性别对它们进行排序。我创建了三个可变数组来放入每个性别(男性、女性、新奇)的声音,并且我正在使用枚举来遍历每个数组并将其放入正确的数组中。不幸的是,它不起作用。除了新奇阵外,所有的都是空的,新奇阵只有一个声音,Zarvox。有人看到我做错了吗?我已经发布了下面的代码:
android - 以编程方式为 TTS 设置语言?
我写了一个小的 Android Demo 来使用不同语言的 TTS。我有一个带有两个按钮的布局,西班牙语和英语。按下按钮会触发所选语言的话语。
但是,我无法更改语言(setLanguage (Locale locale))。我可以手动完成,使用手机设置并将 TTS 语言更改为美国、英国、意大利语、德语等,但我的代码似乎不起作用。你能告诉我问题出在哪里吗?
谢谢!!
}
android - 为合成语音暂停 Android MediaPlayer
我有一个正在运行的 Android MediaPlayer,我想在语音合成器开始说话时暂停(特别是当 Google 导航应用程序给出指示时)。我很确定这是可能的,因为标准音乐播放器似乎有这种行为。
我已经(从 Stack Overflow Gods 那里)学习了如何在通话期间暂停 MediaPlayer:
在通话中暂停音乐播放器,并在 android 通话后再次恢复播放
我很惊讶我还没有找到类似的机制来监听来自语音合成器的事件。我想我错过了一些东西,如果有人能指出我的链接甚至在这里暗示答案,我将不胜感激。
c# - 让您的应用程序以自定义语音说话
可能重复:
如何为 tts 创建自定义 sapi 语音
嘿,伙计们,这是一个令人费解的问题,我被要求让我的一个应用程序进行对话,以便在机器出现问题时提醒操作员。问题是他们想要使用特定的声音。
使这更加困难的是,它需要说明问题所在,并且对于单个外围设备,有超过 70 个错误代码,并且连接了 9 个不同的外围设备,它们都需要此功能。
我已经看到了解释如何使用 Microsoft 的文本到语音引擎的帖子(例如http://www.itechgiz.com/2011/01/create-a-simple-text-to-speech-application-in-visual -studio)但看不到我如何实现这一点。
我猜我必须让他们的人说出特定的短语才能让声音能够生成单词,但不知道从哪里开始!
顺便说一句,任何想法都必须是 C# Win 形式吗?