在提出问题时,应将整个问题分解为较小的问题并一一解决。但我问得不好,为了完全解释我的需求和技术限制,希望有人建议一套完美的技术来工作。
我要设计一些将接受文本作为输入的东西转换成语音 这个语音由一个3D 模型实时表达。
在这里你可以看到所有这些东西都应该是实时的,因此我正在考虑在一些游戏引擎中做这件事,但我不确定我在这里做的事情是否可行。
我需要指导,一条道路,关于我应该如何开始。
在提出问题时,应将整个问题分解为较小的问题并一一解决。但我问得不好,为了完全解释我的需求和技术限制,希望有人建议一套完美的技术来工作。
我要设计一些将接受文本作为输入的东西转换成语音 这个语音由一个3D 模型实时表达。
在这里你可以看到所有这些东西都应该是实时的,因此我正在考虑在一些游戏引擎中做这件事,但我不确定我在这里做的事情是否可行。
我需要指导,一条道路,关于我应该如何开始。
您没有指定平台,即 Windows/Linux 等,尽管它可能并不重要。
我最初的想法是将 PICO tts 库与 Blender 游戏引擎 (BGE) 结合起来。虽然我不确定 Pico 引擎是否有 python 绑定。
espeak 项目 (espeak.sourceforge.net/) 将普通文本转换为音素,然后可用于驱动 shape-keys(或 blend-keys,我忘记了 Blender 的名称,距离我上次玩已经 5 年多了搅拌机/玛雅/3DSMax)。
据推测,您可以在 python 中实现 espeak 引擎(或创建一个可通过 python 访问的模块)并使用它来生成所需的音素,然后再将它们同时传递给您的形状/混合键控制器和 Pico。
快速浏览后,似乎 libttspico-dev 是支持 pico 启用应用程序开发的包,尽管它似乎只包含 c/c++ 文件 - 我想应该可以创建一个利用引擎的 python 模块,但是除了名称和基本功能之外,我真的不熟悉 Pico。这可能是一个愚蠢和不知情的建议。
无论如何,这肯定是一个有趣的项目。也许更简单的方法是用 C/C++ 创建一个使用 OGRE 和 Pico 的应用程序。重要的因素是 OGRE 能够从 1 个形状键混合到下一个形状键 - 也可能是 Pico 在内部以这样一种方式完成所有操作,即您无法获得回调或监控它在播放语音中的当前位置。
已收藏。