起初我以为它会像图像识别一样简单。
创建 FANN hopfield 网络,而不是用二进制转换的图像训练/馈送它,用二进制转换的声音馈送它。
但:
- 如何将 wav 转换为二进制字符串(我相信我需要二进制而不是字节 - 对吗?)
- 如何使其连续,我的意思是计算来自麦克风的单词/声音的出现作为来源。
- 什么是最好的java库来做到这一点(不是SPHINX或其他语音识别库——我想让我的代码语言独立,甚至识别自定义声音——比如拍手)
我以前使用 FANN 进行图像识别,并且我知道 Encog,但也许有更好的东西(或更简单,我实际上并不了解如何使用 Encog)和更可取的 Java 本机,以便轻松移植到移动设备