我认为 Google 的语音转文本功能(Google Voice 语音邮件的自动转录、YouTube 上视频的自动字幕等)令人印象深刻。
我确实查看了谷歌是否通过 API 提供了它,但似乎他们没有(不是我责怪他们!)。不过,提供语音到文本功能的云计算服务会非常酷。
是否有某种“黑客”可用于将语音访问文本。我的架构基本上归结为 - 一个短的 15-20 秒 wav/mp3/其他剪辑作为输入,输出是纯文本。
任何想法的人?
我认为 Google 的语音转文本功能(Google Voice 语音邮件的自动转录、YouTube 上视频的自动字幕等)令人印象深刻。
我确实查看了谷歌是否通过 API 提供了它,但似乎他们没有(不是我责怪他们!)。不过,提供语音到文本功能的云计算服务会非常酷。
是否有某种“黑客”可用于将语音访问文本。我的架构基本上归结为 - 一个短的 15-20 秒 wav/mp3/其他剪辑作为输入,输出是纯文本。
任何想法的人?
有很多语音到文本的 API。仅仅因为谷歌没有提供他们的,这并不意味着你不走运。
这是一个适用于 C# 的好方法。如果您的平台不是 .NET,您可以搜索其他平台。
看看这个: http: //mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/
我目前正在尝试在 PHP 中实现 API。
——赛斯
它可以通过 Chrome 8 或 Opera 在 HTML5 中使用: https ://docs.google.com/View?id=dcfg79pz_5dhnp23f5&pli=1
Google 语音技术也可以通过 Android 手机上的 Android API 访问。
其他产品,如 Sphinx,是在特定领域工作得最好的语音识别引擎,而不是“不受约束的”语音到文本。
这是彼得莫法特建议的更新,更“官方”的版本:
http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html
以及谷歌的相关公告:
http://chrome.blogspot.com/2011/03/talking-to-your-computer-with-html5.html
您可以使用 C# 查看以下实现 - 我使用了 Mike Pultz 链接。
https://github.com/seigneur/Voice-Biometrics 我使用 Sox 转换为 flac,创建了一个小的 SOX 脚本将其拆分为块。
如果你真的想要谷歌的输出......这是一个 Hack 方法
你有没有想过制作手机提交引擎?本质上,它会调用您的谷歌语音邮件...播放 mp3。
通过https://code.google.com/p/google-voice-java/获取输出
提供更好的答案。