c++ - 实时 3D 模型渲染和实时文本到语音

Question

在提出问题时，应将整个问题分解为较小的问题并一一解决。但我问得不好，为了完全解释我的需求和技术限制，希望有人建议一套完美的技术来工作。

我要设计一些将接受文本作为输入的东西转换成语音这个语音由一个3D 模型实时表达。

在这里你可以看到所有这些东西都应该是实时的，因此我正在考虑在一些游戏引擎中做这件事，但我不确定我在这里做的事情是否可行。

我需要指导，一条道路，关于我应该如何开始。

score 0 · Accepted Answer

您没有指定平台，即 Windows/Linux 等，尽管它可能并不重要。

我最初的想法是将 PICO tts 库与 Blender 游戏引擎 (BGE) 结合起来。虽然我不确定 Pico 引擎是否有 python 绑定。

espeak 项目 (espeak.sourceforge.net/) 将普通文本转换为音素，然后可用于驱动 shape-keys（或 blend-keys，我忘记了 Blender 的名称，距离我上次玩已经 5 年多了搅拌机/玛雅/3DSMax）。

据推测，您可以在 python 中实现 espeak 引擎（或创建一个可通过 python 访问的模块）并使用它来生成所需的音素，然后再将它们同时传递给您的形状/混合键控制器和 Pico。

快速浏览后，似乎 libttspico-dev 是支持 pico 启用应用程序开发的包，尽管它似乎只包含 c/c++ 文件 - 我想应该可以创建一个利用引擎的 python 模块，但是除了名称和基本功能之外，我真的不熟悉 Pico。这可能是一个愚蠢和不知情的建议。

无论如何，这肯定是一个有趣的项目。也许更简单的方法是用 C/C++ 创建一个使用 OGRE 和 Pico 的应用程序。重要的因素是 OGRE 能够从 1 个形状键混合到下一个形状键 - 也可能是 Pico 在内部以这样一种方式完成所有操作，即您无法获得回调或监控它在播放语音中的当前位置。

已收藏。

1 回答 1