所以这是一个棘手的问题。
我希望编写一个 Web 应用程序,记录用户所说的单词,然后将样本发送到服务器端进行处理。
我想到的算法如下:
- 用户单击按钮后开始录制会话
- 等待用户说一个词(假设他知道他应该说一个词)
- 他说完就停止录音
- 将样本发送到服务器,比如使用 HTTP
- 在服务器端处理信号
- 向用户发送一些响应。
我认为在 Java、C# 和其他高级语言中有几种语音活动检测解决方案。但是,我希望这部分可以在客户端完成(否则,我将不得不从客户端向服务器发送太多数据,这是非常低效的)javascript 和 HTML5 中的 IE。
我不是经验丰富的 Web 开发人员,所以我的问题是:这可行吗?有没有图书馆(我还没有找到)?解决问题的最佳方法是什么?