1

我刚刚做了一个有趣的测试,运行语音识别器服务并使用 NSSpeechSynthesis 来回显我使用 NSSpeechSynthesizer 所说的话。

但是,NSSpeechSynthesizer 因速度慢和反应迟钝而臭名昭著,我想知道是否有人尝试通过指定核心、线程或 GPU(使用金属)来处理识别和合成来优化这一点。

我一直在检查以下文章,以通过金属缓冲区更好地了解流水线值:http: //memkite.com/blog/2014/12/30/example-of-sharing-memory-between-gpu-and-cpu- with-swift-and-metal-for-ios8/

作者使用 Metal 来卸载 ML 中使用的 sigmoid 函数,这完全有意义,因为矢量数学是 GPU 最擅长的。

但是,我想知道是否有人探索过发送其他类型数据的可能性,从波形或其他(通过 GPU 渲染合成)中浮动值。

特别是,有没有人为 NSSpeechRecogniser 或 NSSpeechSynthesizer 尝试过这个?

现在,我有一个带有 3D HRTF 声音的完整 3D 场景,并且识别和合成都可以工作,但有时会有明显的滞后,所以也许通过 GPU MTLDevice 专用一个缓冲管道然后再返回播放文件可能有效?

4

0 回答 0