问题标签 [voice-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2407 浏览

xml - 当我重复项目时,如何在 grxml 文件中使用语义标记?

我正在为将使用 Microsoft 的语音 SDK 进行语音识别的软件构建 GRXML 语法。

标签必须遵循标签格式“properties-ms/1.0”,我没有找到任何具体的文档(除了没有回答我问题的 MSDN)。

我主要关心的是标记数字,以便将识别的文本(如“一二三四”)转换为数字“1234”。这是想法:

这没有串联,但至少我得到了每个数字的语义值。

但是,当我对数字使用这样的规则时,程序在运行时会中断,抛出一个异常,指出“规则'CODE'中的语义值已经设置并且无法更改。”。

如何使语义标记与 DIGIT 规则的“重复”一起工作?我不希望将我的 CODE 规则分成 4 个相同的项目,每个项目都有不同的语义键:在我的语法中还有其他情况,其中位数不固定。

此外,有没有办法连接标签以便为数字提供一般语义含义。

0 投票
1 回答
1072 浏览

android - 我们可以在服务中运行语音识别吗?

我想知道我们是否可以从服务运行语音识别。

我希望一些 Android 专家/谷歌工程师对此提供一些有价值的意见。

谢谢。

0 投票
1 回答
329 浏览

audio - 创建自定义声音识别软件以切换音频的建议

我需要开发一个程序,当它识别出鹦鹉的尖叫声或尖叫声时,它会打开或关闭特定的音轨。该软件需要识别特定范围的声音并允许该范围内的一些变化(因为鹦鹉可能不会每次都准确地复制它的尖叫声)。

示例:鸟鸣,没有声音。鸟停止尖叫五秒钟,播放赞美鸟的音轨。经常聊天需要完全忽略,因为它不气馁。

我听说过 Java 库具有内置字典的语音识别功能,但是需要教该软件我的特定鹦鹉发出的特定声音 - 而不是单词或任何随机的鸟声。此外,正如我上面提到的,它需要允许声音的细微变化,因为尖叫声可能永远不会 100% 与录制的版本相同。

解决这个问题的最佳方法是什么/我应该研究什么语言?

编辑:或者(也许这将是一个更简单的解决方案),有没有办法根据输入音量进行音频切换?所以鹦鹉发出什么样的声音并不重要,只是声音有多大?

0 投票
2 回答
906 浏览

speech-recognition - 我可以在 Linux 下使用哪些库(C 或 Python)来编写识别语音命令的软件?

我有一个软件合同请求,该合同要求从非常有限的集合中识别语音命令,例如“向上”、“向下”、“关闭”、“打开”等。

我似乎不需要全面的语音识别,即我不必进行波形到文本的转换。我可以用谷歌搜索一个特定的术语吗?

我只是对这个主题知之甚少,无法自己编写代码。如果我想完全解决这个问题,我需要一个相当成熟的库来解决这个子问题,最好是开源的。

目标平台是某种运行 Linux 的工业 PC,我会使用 C 或 Python 来编写应用程序。

0 投票
7 回答
3298 浏览

iphone - Iphone 语音转文字 & 返回语音 API

我想在我的 iphone 应用程序中,语音转文本,然后返回语音。

我尝试在论坛和谷歌上搜索,发现了一些 API,如 OpenEars、Vocal Kit 和 tts,但这些都是针对英语的,而不是针对其他语言的,例如德语、法语和西班牙语、中文等。

是否有任何免费 API,我在 Google 上错过了它,或者没有任何 API?请帮忙

App Store 中现有的应用如 Jibbigo 和 MLD 都在使用这样的功能,那么他们在使用什么?

保罗·迪克森的回答

Nuance API 是免费开发的,但在 APP Store 上线之前要求购买,所以应该接受没有免费的 API ,,请大家帮忙

0 投票
1 回答
3799 浏览

android-emulator - Android 2.2:模拟器中的语音输入选项在哪里?

我的 Nexus One 有它:

  1. 设置包括“语音输入和输出设置”列表中的“语音识别器设置”。
  2. 谷歌搜索旁边有一个麦克风按钮,所以当我触摸它时,一个对话框会提示我说出我想要搜索的内容。

但是,在模拟器(API 级别 8,Android 2.2)上,找不到上述任何内容。

语音搜索不是 Android 2.2 的一部分吗?如果是这样,为什么在我的 Nexus One (Froyo) 上可以找到它,但在模拟器上却没有?

我需要做什么才能至少使“语音输入和输出设置”可用?

更新 1:我按照以下建议创建启用识别器的 AVD 的说明,但我仍然收到“识别器不存在”消息:

在此处输入图像描述

我还需要做什么?

是否有可能尽管安装了 Google Inc. 的 Google API、Android API 8、修订版 2 并使用它创建了一个特殊的 AVD,但我仍然需要从 Android Market 安装语音搜索应用程序吗?

更新 2:我按照迈克尔的更正安装了谷歌的语音搜索应用程序。这解决了“识别器不存在”的问题,但现在我遇到了一个新问题:

在此处输入图像描述

该应用程序的“再次说话”的建议是虚假的:再次说话会一遍又一遍地显示相同的错误消息。

0 投票
4 回答
937 浏览

wpf - 龙自然说话在 WPF 子菜单上失败

我的 WPF 应用程序菜单无法与 Dragon Natually speak 一起使用,因此我假设其他屏幕阅读器和辅助功能软件。我希望我的软件能够很好地为我的盲人和残疾客户工作。为了找出我的错误,我还尝试了其他 WPF 应用程序,如 Visual Studio 2010 和 Expression Blend 4,但它们有相同的错误。在所有情况下,我都可以使用语音下拉主菜单标题,如“文件”、“编辑”、“帮助”——但永远不能激活“新建”、“打开”或“关闭”等子菜单项。我已经阅读了有关 Accessibility 和“UI Automation”的所有内容,我尝试过运行“UI Accessibility Checker”和“Snoop”,这些应用程序似乎也枚举了我的 Menu HEADERS OK,但不是那些菜单上的项目。为什么?

0 投票
1 回答
730 浏览

android - TTS *和*语音输入同时进行?

我注意到,一旦语音识别活动开始,文本到语音的输出就会停止。

我理解其中的道理:语音识别引擎可能会“听到”TTS 输出并干扰其正常运行。

我的问题:这种行为是硬编码到系统中的,还是可以通过设置或参数(在 API 中)进行修改?

0 投票
1 回答
2791 浏览

c# - .net 中的语音识别。斯芬克斯、ISIP、朱利叶斯

我想在我用 c# 编写的应用程序中实现语音识别功能。System.Speech.Recognition 不适合,因为它支持的语言数量不够。

我找到了几个引擎,但它们不是用 .net 编写的,而且我找不到任何包装器。那么,使用哪一个:Sphinx、ISIP、Julius?您知道它们的任何 .net 包装器吗?您知道任何可以提供帮助的教程或文章吗?

提前致谢

0 投票
5 回答
5782 浏览

android - How do I use voice search and VoiceRecognition on Android?

I want to use VoiceRecognition in my application, but this application needs to install voice search.

I don't want the user to have to install another other application then return to my application to run it. I want voice search to be installed from my application, or alternatively I'd like to find a tutorial to on how to add Voice Search capability to my application.

What can I do?