swift - 在 OS X 上使用 GPU 进行语音 NSSpeechSynthesis 和 NSSpeechRecogniers

翻译自：https://stackoverflow.com/questions/36965274 2016-05-01T09:49:37.653

88 次

我刚刚做了一个有趣的测试，运行语音识别器服务并使用 NSSpeechSynthesis 来回显我使用 NSSpeechSynthesizer 所说的话。

但是，NSSpeechSynthesizer 因速度慢和反应迟钝而臭名昭著，我想知道是否有人尝试通过指定核心、线程或 GPU（使用金属）来处理识别和合成来优化这一点。

作者使用 Metal 来卸载 ML 中使用的 sigmoid 函数，这完全有意义，因为矢量数学是 GPU 最擅长的。

但是，我想知道是否有人探索过发送其他类型数据的可能性，从波形或其他（通过 GPU 渲染合成）中浮动值。

特别是，有没有人为 NSSpeechRecogniser 或 NSSpeechSynthesizer 尝试过这个？

现在，我有一个带有 3D HRTF 声音的完整 3D 场景，并且识别和合成都可以工作，但有时会有明显的滞后，所以也许通过 GPU MTLDevice 专用一个缓冲管道然后再返回播放文件可能有效？

0 回答 0