text - 文本转音频软件的工作原理

Question

我想创建一个可以将可读文本（非英语）转换为音频声音输出的软件。

经过一番搜索，我意识到大多数现有的音频阅读器都过于机械化，缺乏类似人类语音的效果。

我正在寻找一些算法/文书工作，它可以让我对如何进行/实施这样的事情有所了解。

或者

有谁知道，一些世界上最好的文本阅读器软件是如何工作的？

我的期望是：

score 2 · Accepted Answer

一些小步骤可能会帮助您对发生的事情给出一些基本的想法-

您需要创建一个单词词典，每个单词都有其名称和声音。
创建您自己的信号处理器，这将帮助您为声音添加效果，就像您可能想要机器人、女性版本或其他东西一样。
将要读取的文本文件解析成数组格式，将每个单词和标点分开，组成一个数组和。例如。“我想死，这不是正确的生活方式。” 这将形成一个数组 {I:want:to:die:,:this:isn't:a:correct:way:to:live:.}
使用标点符号来实现类似生活的参数，例如，用于小停顿和 . 在您的音频阅读器中暂停更长的时间。
使用单词从第 1 点中的数据库（字典）列表中取出音频。
连续播放整个数组，每个数组元素之间有一个暂停，将类似于空格

我认为这些是做到这一点的主要方法。为了加快速度，您可以使用高级声音处理工具来缓存小声音数据并在调制声音信号时动态添加数据。

这可能对你有帮助。

score 0 · Accepted Answer

如果您能告诉我们您将创建什么样的应用程序（Movil、Web、桌面）以及您将使用什么代码开发它（Php、Java、C++ 等），那就太好了。因为如果你在谷歌搜索，你会发现很多网站插件可以将文本转换为音频，你可以下载它们并查看代码。

此外，很难找到一个听起来不像机器人的应用程序，如果你找到它，也许你会为此付出代价。

score 0 · Accepted Answer

您关心的文本到语音的“机器人”方面是“韵律”的质量问题。这是一个活跃的研究领域。您可能会因为致力于改进 TTS 系统中的韵律而获得博士学位。如果您想了解当前的研究，可以尝试搜索“改进文本到语音的韵律”。

问题的很大一部分是在给定语言中拥有准确的语音韵律模型。Nicolas Obin (2012)的论文“MeLos：语音韵律和说话风格的分析和建模”包含对语音韵律建模技术现状的调查。或尝试搜索“文本到语音韵律调查最先进”。

3 回答 3