11

是否有人对任何开源或相对便宜的 Java 语音识别 API 有经验?我几乎在寻找可以将口语变成文本的东西。

从sun上的java语音识别页面来看,似乎是一个比较死的东西。我的要求是至少在 linux 上运行的东西。

任何人都可以推荐一些东西吗?纯 java 将是一个奖励,否则可以考虑基于 linux 的解决方案。而且由于这是一个家庭项目……越便宜越好。

  • 编辑

CMU Sphinx 正如 Amit 指出的 CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php 我的问题是一个巨大的单词错误率。训练本身就是一个项目,我希望能积攒点力气在这个周末尝试一下。

IBM ViaVoice
2004 年有消息称Via Voice 将开源。新闻发布似乎为时过早,而且从未发生过。威盛语音在某个时候为 li​​nux 发布了,但似乎它们停止了。IBM 网站上似乎只剩下ViaVoice Embedded了。

IBM Websphere Voice
我想这就是 ViaVoice(桌面)似乎停产的原因。IBM 创建了这个商业解决方案,其成本将超过一条胳膊和一条腿。至少在我使用 websphere 及其 IDE 的经验之后,只要使用它就会占用你剩下的那些。

Nuance
似乎他们仍然可以为 linux 创建产品。但我认为他们迷路了,跟随 IBM 进入了服务器市场。我不太确定这一点,他们的网站在查找有用信息方面并不那么友好。

开放思想/言论自由
这些人不断更改他们的项目名称。可能是一些贪钱的公司一直在威胁他们,但我不知道。该项目看起来有点死。

这个周末我可能会尝试训练狮身人面像,看看它是否想成为朋友。其他更糟糕的情况,我将考虑使用 Microsoft 的语音解决方案。过去它对我来说效果很好,但它不是一个很好的 linux 解决方案。我可能可以通过 wine 使用它,但是我将有两个单独的服务器......凌乱凌乱。

哦,还有什么似乎是参观语音/语音SpeechTechMag的好地方。他们有一个“年度参考”,其中列出了一些与语音/语音相关的公司。

4

5 回答 5

9

主要是 Java:http ://cmusphinx.sourceforge.net/html/cmusphinx.php

于 2009-03-04T07:14:40.707 回答
3

如果您的预算有限,sphinx 是迄今为止最好的选择。但是,您使用什么型号、如何调整它们以及如何调整音频源也会产生巨大的差异。绝对一切都必须匹配,否则它将无法正常工作。考虑到你描述的问题,我愿意赌大笔钱,你把你的模型弄混了,你的麦克风没有正确校准。此外,如果你有口音,它可能不起作用——这不是解码器的问题,而是声学模型的问题——如果训练数据中没有包含与你的语音/口音相似的人,你会得到很差的结果.

也就是说,你看过他们的开源模型页面吗?

http://www.speech.cs.cmu.edu/sphinx/models/

根据您要执行的操作,您应该能够使用 16kHz WSJ 模型和 gigaword LMs NVP 获得大约 90% 的言论自由准确度。但我警告说,ASR 是一项艰巨的任务,尚未达到商品状态。

于 2009-08-26T14:50:30.453 回答
2

您可以从http://www.basic-signalprocessing.com下载 vPass(语音密码)。

这些组件是为 Java 和 .Net 语言设计的。识别周期为 5 秒。VPass 经过良好测试 vText 还没有,仍然是新的,这就是为什么还没有打包的原因。

于 2010-01-10T16:28:39.333 回答
1

几天来我一直在寻找同样的东西。到目前为止,我已经找到了 Sphinx4 和 FreeTTS。两者都是 java 实现,Sphinx 似乎与 FreeTTS 不同,它更新得相当频繁。我遇到的唯一问题是 Sphinx 在办公环境中无法理解我,我需要一个仓库环境的解决方案。

于 2009-03-05T17:01:41.617 回答
1

我的小组用 Java 完成了一个小程序,以使用Sphinx识别口语数字。

于 2010-01-07T07:22:50.983 回答