android - CMU Sphinx 可以设置为识别约 200 个单词吗

Question

我有一个客户需要一个可以识别语音命令的 Android 应用程序。据我了解，内置的语音到文本功能实际上将数据发送到谷歌的服务器，然后再发回文本翻译。这是一个主要问题，因为语音数据非常敏感（除非数据在发送到 Google 或从 Google 发送时已加密 - 但我怀疑它是否已加密）。

我能想到2个选项。首先是在 Android 上将语音转换为文本，尽管这似乎是一项极其昂贵的操作。第二种可能性是让本地服务器为我转换数据（我可以在发送和接收语音数据时加密语音数据和翻译）。这是 CMU Sphinx 可以实现的吗？值得注意的是，我还可以访问 Asterisk 服务器，这可能有助于解决这个问题（我不知道）。

实际上，应该只有大约 200 个单词需要被识别。我更喜欢开源/免费软件解决方案，但我也对商业解决方案（可能是 FlexT9）持开放态度。理想情况下，我可以将音频流发送到某个地方，取回作为文本的字符串，然后我可以解析该字符串并使用该字符串执行其他操作。

我过去没有做过太多的 android 或任何语音识别开发，所以我希望有人至少可以为我指明正确的方向。谢谢！

score 10 · Accepted Answer

CMUSphinx是一个开源语音识别工具包，您可以使用它来构建您的应用程序。它包含使您能够构建语音应用程序的工具、库和数据。您可以在上面的网站上了解有关 CMUSphinx 的更多信息。

在 Android 上，您有多种使用 CMUSphinx 的选项：

识别设备上的音频。为此，您可以为 android 编译 Pocketsphinx 引擎。有关详细信息，请参阅此博客文章。
识别服务器上的音频。作为服务器，您可以使用 Pocketsphinx 或 Sphinx4。您可以以压缩的 flac 格式发送音频或在设备上提取语音识别特征并将特征流发送到服务器。

CMUSphinx 为您提供多种声学模型，使您能够识别多种语言的音频，如英语、法语、普通话、德语、荷兰语、俄语。

您还可以使用适配工具改进识别结果。

如果您对 CMUSphinx 有任何疑问，欢迎在我们的社区论坛中提问。

score 4 · Accepted Answer

Microsoft 语音引擎是闭源但免费的。有关一些背景信息，请参阅System.Speech.Recognition 和 Microsoft.Speech.Recognition 有什么区别？. 有关更多背景信息，您可以尝试https://stackoverflow.com/a/4217638/90236

Microsoft Server Speech Platform 11 的完整 SDK 可在http://www.microsoft.com/download/en/details.aspx?id=27226获得。语音引擎可免费下载。

android - CMU Sphinx 可以设置为识别约 200 个单词吗

2 回答 2

Related

Reference