3

起初我以为它会像图像识别一样简单。

创建 FANN hopfield 网络,而不是用二进制转换的图像训练/馈送它,用二进制转换的声音馈送它。

但:

  1. 如何将 wav 转换为二进制字符串(我相信我需要二进制而不是字节 - 对吗?)
  2. 如何使其连续,我的意思是计算来自麦克风的单词/声音的出现作为来源。
  3. 什么是最好的java库来做到这一点(不是SPHINX或其他语音识别库——我想让我的代码语言独立,甚至识别自定义声音——比如拍手)

我以前使用 FANN 进行图像识别,并且我知道 Encog,但也许有更好的东西(或更简单,我实际上并不了解如何使用 Encog)和更可取的 Java 本机,以便轻松移植到移动设备

4

1 回答 1

0

如果您已经能够使用图像,也许这就是您所需要的: http ://code.google.com/p/asperes/

它可以将 WAV 声音样本转换为 BMP 图像(频谱图)以及将任意 BMP 图像转换为声音 (WAV)。

文档中的描述:

Audio Spectrograph and Re-Synthesis (ASPERES) 是一个小型命令行实用程序,可以从声音样本生成图像(频谱图),以及从任意图像生成声音。

于 2012-09-22T20:49:54.507 回答