54

我现在正在寻找 Java 文本转语音 (TTS) 框架。在我的调查中,我发现JSAPI 实现页面上列出了几个 JSAPI1.0-(部分)兼容的框架,以及一对似乎不遵循 JSAPI 规范的 Java TTS 框架(MarySay-It-Now) . 我还注意到目前不存在 JSAPI 的参考实现。

我为 FreeTTS(JSAPI impls 页面中列出的第一个)所做的简短测试表明,它远非阅读简单明了的单词(例如:ABC、黑板)。其他测试目前正在进行中。

这是问题(实际上是6):

  1. 您使用过哪些基于 Java 的 TTS 框架?
  2. 您认为哪些能够阅读最大的词库?
  3. 他们的语音质量怎么样?
  4. 他们的表现如何?
  5. 现场有哪些具有 Java 绑定的非 Java 框架?
  6. 你会推荐他们中的哪一个?

预先感谢您的意见和建议。

4

9 回答 9

18

实际上,我在FreeTTS 上运气不错

于 2008-09-27T11:36:42.700 回答
12

谷歌翻译有一个秘密的 tts api: https ://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World

于 2013-09-13T15:36:58.630 回答
8

其实,选择并不大:

  • 节日,最古老。用 C++ 编写,但绑定到 Java。
  • eSpeak,快速简单,由 Google 翻译使用
  • 姆布罗拉

纯Java:

  • FreeTTS,代码是从 Festival 移植过来的,然后开源了,开发就停止了。
  • MaryTTS - 更强大,看起来已经准备好生产。

还有其他专有程序,例如:

  • 阿卡贝拉
  • 细微差别发声器

如果您的软件仅适用于 Windows,则可以使用 Microsoft Speech API。

于 2014-12-25T14:55:57.610 回答
7

我以前用过 Mary,声音的质量给我留下了深刻的印象。不幸的是,我没有使用任何其他的。

于 2008-09-27T10:58:04.540 回答
5

我使用了提供 JSAPI 和 MS SAPI 挂钩的AT&T Natural Voices 。它提供优质的声音、良好的“通用”语音词典、对发音的许多控制和多种语言。它有点贵,但效果很好。

我用它在移动传感器应用程序中向驱动程序读取重要的传感器遥测数据。我们对语音质量没有任何抱怨。它在科学术语方面具有大约 75% 的开箱即用准确率,而在正常对话方面则更高(可能 90% 以上)。通过使用标记,我们将其准确率提高到 99% 以上(大多数错误是在科学术语上带有不寻常的音素组合)。

处理器有点困难(我们在 Pentium-III 等效机器上运行,它正在推动 50%-75% 的峰值 CPU)。它使用带有 Java 接口的本机语音引擎(Windows、Linux 和 Mac 兼容)。

有各种各样的声音和语言......

于 2008-09-29T19:30:42.153 回答
1

非常感谢大家,诀窍在于 FreeTTS 源代码。简而言之:如果作为 运行java -jar freetts.jar some-more-args-here,它的拼写比以 bin/Server.jar 和 bin/Client.jar 的方式执行时要少。

于 2008-09-29T09:28:21.273 回答
1

我使用了 FreeTTS,但在让 MBrola 声音在 My MacbookPro 上运行时遇到了一个大问题。我确实让 MBrola 声音在 Windows(痛苦地)和 Linux 上运行。我没有运气在 FreeTTS 上加载任何其他语音包,这是一种耻辱,因为提供的语音是可怕的 IMO。除此之外,我在 Cloudgarden 上也取得了一些成功,但它只在 Windows AFAIK 上运行。我很想听听其他人使用语音引擎的成功/失败,因为这类工作特别具有挑战性。我也在玩弄Sphinx4。昨晚我刚刚下载了 JVXML(它似乎基于 Sphinx4),但由于某种奇怪的原因无法让它运行。

于 2009-04-10T13:32:55.903 回答
1

我为玛丽做出了贡献。如果有人比我更聪明,我觉得它有潜力将 HMM 声音从核心中分离出来(这些声音不需要大型数据集并且听起来不错)。我也在尝试为 freetts 做一个事件系统,以便在它说一个词时发送事件。我已经成功了,但是现在在 linux 中它被打破了。(可能是因为计时器错误)。

于 2010-02-27T14:19:20.073 回答
0

我发现MarryTTS不太舒服它有多种语言和清晰的声音可以理解。

T 将语音转换为文本,更好的选择是 sphinx4-5prealpha。我给一个拇指,因为它具有可调节、灵活和可修改的识别器和语法。

于 2017-08-08T12:21:31.763 回答