security - 如何将人声转换为数字格式？

Question

我正在开展一个使用生物识别系统来保护系统的项目。我们计划使用人声来保护系统。

想法是让人们说一些单词或句子，系统将以数字格式存储该语音。下次人们想进入系统时，他/她必须说一些可能与之前使用的单词不同或不同的单词。

我们不想匹配单词，但想要匹配语音频率。

我已经阅读了一些关于这个系统的研究论文，但是这些论文没有任何实现细节。

所以只想知道是否有任何软件/API可以将模拟语音转换为数字格式，并且还会告诉我们语音的频率。

到目前为止，我一直在开发普通的基于 Web 的应用程序，所以我知道普通的 API 和平台，如 Java EE、C# 等，但我对这类应用程序没有任何经验。

请赐教！！！

score 2 · Accepted Answer

这是一个很好的起点： http: //marsyas.info/

它是一个用于音频处理的开源软件框架。他们列出了一堆以各种方式使用其框架的项目，因此您可能会从中汲取灵感。 http://marsyas.info/about/projects。特别是 Telligence 项目似乎最符合您的需求，因为它用于对音频进行性别分类：http: //marsyas.info/about/projects#5Teligence

score 2 · Accepted Answer

http://www.loquendo.com/en/products/speaker-verification/
http://www.nuance.com/for-business/by-solution/contact-center-customer-care/cccc-solutions-services/verifier/index.htm
（由于报告的病毒内容，删除了两个链接）
http://www.persay.com/products.asp

score 2 · Accepted Answer

我相信像这样的项目有两个步骤：

第一步是将模拟输入的声音录制成数字格式（假设 wav-pcm）。为此，您可以在 C# 中使用 DirectShow API，或在此项目中使用标准 Wav-In：http: //www.codeproject.com/KB/audio-video/cswavrec.aspx。您可以考虑稍后压缩您的音频文件，这有很多选项，在 Windows 中您可以考虑使用 Windows Media Format SDK 以避免其他格式的许可问题。

第二步是构建或使用语音识别框架，如果你想构建一个识别框架，你可能需要为你的声音片段定义一组“特征”并选择+实现一个识别算法。有许多可用的方法，IEEE amd ACM.org 网站通常是很好的来源。如果您想使用现有框架，您可能需要考虑 Nuance Recognizer（商业）或http://cmusphinx.sourceforge.net（开源）。

希望这可以帮助。

security - 如何将人声转换为数字格式？

3 回答 3

Related

Reference