问题标签 [speech-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2530 浏览

delphi - Delphi 中的 Vista 语音识别

我希望能够使用 Microsoft Vista 的语音识别在我的 Delphi 应用程序中进行口述。但是,当尝试将口述输入 TMemo 时,它根本不起作用。我注意到 Firefox 3.0 也有同样的问题,在他们联系微软解决这个问题后,他们告诉他们需要为他们的应用程序实现文本服务框架

我想知道是否有任何方法可以在 Delphi 中实现这一点,以便我可以口述到 TMemo 或 TRichEdit 中。在 Google 上搜索解决方案未返回任何相关结果。我从哪里开始寻找解决方案?

编辑:我发现有一种方法可以在所有程序中启用语音识别,即使是那些不支持它的程序,只需转到 Windows Speech Recognition 的选项并选择Enable dictation anywhere。但是,当您使用它来指示不使用文本服务框架的编辑框时,它总是会弹出“替代面板”,其中显示提示说您想要的项目旁边的数字,然后是 OK。虽然这可能适用于短句,但它没有许多有用的功能,例如更正或删除单词。因此,我仍在尝试弄清楚如何在不依赖“随处启用听写”选项的情况下启用语音识别。

0 投票
1 回答
9256 浏览

speech-recognition - 使用 SAPI 5.3 Speech API 进行声学训练

在 Vista 上使用 Microsoft 的 SAPI 5.3 Speech API,您如何以编程方式对 RecoProfile 进行声学模型训练?更具体地说,如果您有一个文本文件和一个用户说出该文本的音频文件,您将使用该文本和音频进行什么 SAPI 调用序列来训练用户的配置文件?

更新:

关于这个问题的更多信息我还没有解决:你在“开始”调用 ISpRecognizer2.SetTrainingState( TRUE, TRUE ),在“结束”调用 ISpRecognizer2.SetTrainingState( FALSE, TRUE )。但目前还不清楚这些行动何时必须相对于其他行动发生。

例如,您必须进行各种调用以使用与您的音频匹配的文本来设置语法,并进行其他调用以连接音频,以及对各种对象进行其他调用以说“你现在可以开始了”。但是什么是相互依存关系——在发生什么之前必须发生什么?如果您使用音频文件而不是系统麦克风进行输入,这是否会使相对时间不那么宽容,因为识别器不会一直坐在那里听,直到扬声器正确?

0 投票
3 回答
5866 浏览

c# - 如何使用 System.Speech 和 SAPI 5.3 将单词添加到已加载的语法中

给定以下代码,

如何在加载的语法中添加其他单词?我知道这可以通过本机代码和使用 SpeechLib 互操作来实现,但我更喜欢使用托管库。

更新:我想要实现的是,不必因为个别更改而重复加载整个语法。对于小语法,我通过调用得到了很好的结果

然后在事件中卸载旧语法并加载重建的语法:

对于大型语法,这变得太昂贵了。

0 投票
2 回答
9043 浏览

sql - 我可以使用语音识别编写 SQL 吗?

我打字时手腕痛,我想开始使用语音识别编写 SQL 语句、存储过程和视图。

0 投票
4 回答
1437 浏览

speech-recognition - 口语编程语言/系统

我最近遇到了一种叫做Rpoku的东西,它是一种口语计算机语言。我还发现了一些名为Voice Code的研究,它采用了不同的方法。这里有一个演示视频..

这看起来很有希望,还是只是一个玩具?有朝一日是否有可能在不使用键盘输入的情况下创建应用程序?

0 投票
2 回答
347 浏览

speech-recognition - 我可以在 Windows Server 2003 中使用 Vista 语音 API 吗?

我在 iphone 上编写了一个小应用程序,它将 30 秒的语音传输到通过远程处理调用 Windows 服务的网络服务器,该服务使用 Windows 2003 服务器上的 SAPI5.1 通过默认识别器将波形转换为文本。

我想将引擎更新到最新版本,并添加一个创建用于在 Vista 中运行的医疗语音模型。我可以通过 Windows 2003 服务器和 .net 3.5 库中编写的应用程序来做到这一点。无论如何,Vista 是否只使用 3.5 .net 库。我可以通过注册表或 api 调用更改语音模型吗,我知道在 vista 上使用语音模型你必须在语音识别下更改注册表项,

有任何想法吗?谢谢,汤姆

0 投票
4 回答
12269 浏览

c++ - Linux中的语音到文本转换

我打算在 Linux 中启动一个将语音转换为文本的应用程序。是否有任何现有接口以便我可以扩展它们?或者Linux中是否有任何这样的现有应用程序?对此有任何意见吗?

编辑:我计划编写的应用程序应该能够将我们所说的每个单词转换为文本,而不仅仅是是/否。

0 投票
5 回答
5729 浏览

c# - C# 语音识别

这里有一篇关于那个的帖子......但它对我不起作用。我添加了一个我在互联网上找到的 system.speech.dll 但我不能使用 System.speech ,因为它没有出现。

错误 1 ​​找不到类型或命名空间名称“SpeechRecognizer”(您是否缺少 using 指令或程序集引用?)

错误 2 找不到类型或命名空间名称“SpeechRecognizedEventArgs”(您是否缺少 using 指令或程序集引用?)

我用过这段代码。我正在使用 Windows Vista 64

0 投票
5 回答
11077 浏览

audio - 如何从音频文件中分离男性和女性的声音(在 C++ 或 Java 中)

我想区分音频文件中的男性和女性声音并将它们分开。作为输出,我希望将两个声音分开。你能帮我吗?编码可以用 java 还是 c++ 完成

0 投票
5 回答
12535 浏览

java - Java语音识别

是否有人对任何开源或相对便宜的 Java 语音识别 API 有经验?我几乎在寻找可以将口语变成文本的东西。

从sun上的java语音识别页面来看,似乎是一个比较死的东西。我的要求是至少在 linux 上运行的东西。

任何人都可以推荐一些东西吗?纯 java 将是一个奖励,否则可以考虑基于 linux 的解决方案。而且由于这是一个家庭项目……越便宜越好。

  • 编辑

CMU Sphinx 正如 Amit 指出的 CMU Sphinx http://cmusphinx.sourceforge.net/html/cmusphinx.php 我的问题是一个巨大的单词错误率。训练本身就是一个项目,我希望能积攒点力气在这个周末尝试一下。

IBM ViaVoice
2004 年有消息称Via Voice 将开源。新闻发布似乎为时过早,而且从未发生过。威盛语音在某个时候为 li​​nux 发布了,但似乎它们停止了。IBM 网站上似乎只剩下ViaVoice Embedded了。

IBM Websphere Voice
我想这就是 ViaVoice(桌面)似乎停产的原因。IBM 创建了这个商业解决方案,其成本将超过一条胳膊和一条腿。至少在我使用 websphere 及其 IDE 的经验之后,只要使用它就会占用你剩下的那些。

Nuance
似乎他们仍然可以为 linux 创建产品。但我认为他们迷路了,跟随 IBM 进入了服务器市场。我不太确定这一点,他们的网站在查找有用信息方面并不那么友好。

开放思想/言论自由
这些人不断更改他们的项目名称。可能是一些贪钱的公司一直在威胁他们,但我不知道。该项目看起来有点死。

这个周末我可能会尝试训练狮身人面像,看看它是否想成为朋友。其他更糟糕的情况,我将考虑使用 Microsoft 的语音解决方案。过去它对我来说效果很好,但它不是一个很好的 linux 解决方案。我可能可以通过 wine 使用它,但是我将有两个单独的服务器......凌乱凌乱。

哦,还有什么似乎是参观语音/语音SpeechTechMag的好地方。他们有一个“年度参考”,其中列出了一些与语音/语音相关的公司。