9

我正在开展一个使用生物识别系统来保护系统的项目。我们计划使用人声来保护系统。

想法是让人们说一些单词或句子,系统将以数字格式存储该语音。下次人们想进入系统时,他/她必须说一些可能与之前使用的单词不同或不同的单词。

我们不想匹配单词,但想要匹配语音频率。

我已经阅读了一些关于这个系统的研究论文,但是这些论文没有任何实现细节。

所以只想知道是否有任何软件/API可以将模拟语音转换为数字格式,并且还会告诉我们语音的频率。

到目前为止,我一直在开发普通的基于 Web 的应用程序,所以我知道普通的 API 和平台,如 Java EE、C# 等,但我对这类应用程序没有任何经验。

请赐教!!!

4

3 回答 3

2

这是一个很好的起点: http: //marsyas.info/

它是一个用于音频处理的开源软件框架。他们列出了一堆以各种方式使用其框架的项目,因此您可能会从中汲取灵感。 http://marsyas.info/about/projects。特别是 Telligence 项目似乎最符合您的需求,因为它用于对音频进行性别分类:http: //marsyas.info/about/projects#5Teligence

于 2011-03-01T07:53:32.927 回答
2

我相信像这样的项目有两个步骤:

第一步是将模拟输入的声音录制成数字格式(假设 wav-pcm)。为此,您可以在 C# 中使用 DirectShow API,或在此项目中使用标准 Wav-In:http: //www.codeproject.com/KB/audio-video/cswavrec.aspx。您可以考虑稍后压缩您的音频文件,这有很多选项,在 Windows 中您可以考虑使用 Windows Media Format SDK 以避免其他格式的许可问题。

第二步是构建或使用语音识别框架,如果你想构建一个识别框架,你可能需要为你的声音片段定义一组“特征”并选择+实现一个识别算法。有许多可用的方法,IEEE amd ACM.org 网站通常是很好的来源。如果您想使用现有框架,您可能需要考虑 Nuance Recognizer(商业)或http://cmusphinx.sourceforge.net(开源)。

希望这可以帮助。

于 2011-03-07T16:27:44.940 回答