我目前正在试用适用于 iOS 的 ivona SDK,它的声音很棒而且非常自然。
但我使用的声音(德国女性)有一个文件大小为 230 MB 的语音文件。
当我想使用 4 个声音时,我的应用程序大约1GB大。
而且离线也没用。这个声音只是为了测试阶段吗?还是也用于生产?
我认为为一个小型 TTS 应用程序实现一些声音太可怕了,以至于应用程序的大小非常非常大......
有人可以给我一个答案吗?
我目前正在试用适用于 iOS 的 ivona SDK,它的声音很棒而且非常自然。
但我使用的声音(德国女性)有一个文件大小为 230 MB 的语音文件。
当我想使用 4 个声音时,我的应用程序大约1GB大。
而且离线也没用。这个声音只是为了测试阶段吗?还是也用于生产?
我认为为一个小型 TTS 应用程序实现一些声音太可怕了,以至于应用程序的大小非常非常大......
有人可以给我一个答案吗?
也许最好的解决方案是不包含语音,并允许用户下载他们更喜欢使用的语音。如果您尝试通过每个声音获利,您还可以将每个声音解锁为单独的应用内购买。
用于测试的声音确实与用于生产的声音相同。但在 IVONA,它们为每种语音提供不同的大小:您可以选择将 IVONA 语音用于汽车/导航系统。这些声音是有限的,所以它们只有大约 70 MB 的大小,它们是 16 kHz 而不是 22 kHz。如果您有导航应用程序,这些都是给您的。否则,请尝试一下,您可以询问您在 IVONA 的联系人。
在我的项目中,我们使用了 5 个这样的声音,每个“vox”文件在 65-74 MB 之间。但即使是这些较小的声音也会使捆绑包的增长幅度很大(但不如您的 230 MB),我们决定按需下载它们(按 IAP,由 Apple 托管)。考虑到用户通常只需要一种语言,因此将多个语音与应用程序捆绑在一起会浪费空间。
另一种选择是准备一组样本并将它们捆绑在一起,而不是 IVONA 语音。当然,这仅在您有一组有限的没有动态部分的文本时才有效。并且可能编写一个小型声音队列引擎来将声音拼接在一起,例如数字。