问题标签 [voice-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
xml - 当我重复项目时,如何在 grxml 文件中使用语义标记?
我正在为将使用 Microsoft 的语音 SDK 进行语音识别的软件构建 GRXML 语法。
标签必须遵循标签格式“properties-ms/1.0”,我没有找到任何具体的文档(除了没有回答我问题的 MSDN)。
我主要关心的是标记数字,以便将识别的文本(如“一二三四”)转换为数字“1234”。这是想法:
这没有串联,但至少我得到了每个数字的语义值。
但是,当我对数字使用这样的规则时,程序在运行时会中断,抛出一个异常,指出“规则'CODE'中的语义值已经设置并且无法更改。”。
如何使语义标记与 DIGIT 规则的“重复”一起工作?我不希望将我的 CODE 规则分成 4 个相同的项目,每个项目都有不同的语义键:在我的语法中还有其他情况,其中位数不固定。
此外,有没有办法连接标签以便为数字提供一般语义含义。
android - 我们可以在服务中运行语音识别吗?
我想知道我们是否可以从服务运行语音识别。
我希望一些 Android 专家/谷歌工程师对此提供一些有价值的意见。
谢谢。
audio - 创建自定义声音识别软件以切换音频的建议
我需要开发一个程序,当它识别出鹦鹉的尖叫声或尖叫声时,它会打开或关闭特定的音轨。该软件需要识别特定范围的声音并允许该范围内的一些变化(因为鹦鹉可能不会每次都准确地复制它的尖叫声)。
示例:鸟鸣,没有声音。鸟停止尖叫五秒钟,播放赞美鸟的音轨。经常聊天需要完全忽略,因为它不气馁。
我听说过 Java 库具有内置字典的语音识别功能,但是需要教该软件我的特定鹦鹉发出的特定声音 - 而不是单词或任何随机的鸟声。此外,正如我上面提到的,它需要允许声音的细微变化,因为尖叫声可能永远不会 100% 与录制的版本相同。
解决这个问题的最佳方法是什么/我应该研究什么语言?
编辑:或者(也许这将是一个更简单的解决方案),有没有办法根据输入音量进行音频切换?所以鹦鹉发出什么样的声音并不重要,只是声音有多大?
speech-recognition - 我可以在 Linux 下使用哪些库(C 或 Python)来编写识别语音命令的软件?
我有一个软件合同请求,该合同要求从非常有限的集合中识别语音命令,例如“向上”、“向下”、“关闭”、“打开”等。
我似乎不需要全面的语音识别,即我不必进行波形到文本的转换。我可以用谷歌搜索一个特定的术语吗?
我只是对这个主题知之甚少,无法自己编写代码。如果我想完全解决这个问题,我需要一个相当成熟的库来解决这个子问题,最好是开源的。
目标平台是某种运行 Linux 的工业 PC,我会使用 C 或 Python 来编写应用程序。
iphone - Iphone 语音转文字 & 返回语音 API
我想在我的 iphone 应用程序中,语音转文本,然后返回语音。
我尝试在论坛和谷歌上搜索,发现了一些 API,如 OpenEars、Vocal Kit 和 tts,但这些都是针对英语的,而不是针对其他语言的,例如德语、法语和西班牙语、中文等。
是否有任何免费 API,我在 Google 上错过了它,或者没有任何 API?请帮忙
App Store 中现有的应用如 Jibbigo 和 MLD 都在使用这样的功能,那么他们在使用什么?
保罗·迪克森的回答
Nuance API 是免费开发的,但在 APP Store 上线之前要求购买,所以应该接受没有免费的 API ,,请大家帮忙
android-emulator - Android 2.2:模拟器中的语音输入选项在哪里?
我的 Nexus One 有它:
- 设置包括“语音输入和输出设置”列表中的“语音识别器设置”。
- 谷歌搜索旁边有一个麦克风按钮,所以当我触摸它时,一个对话框会提示我说出我想要搜索的内容。
但是,在模拟器(API 级别 8,Android 2.2)上,找不到上述任何内容。
语音搜索不是 Android 2.2 的一部分吗?如果是这样,为什么在我的 Nexus One (Froyo) 上可以找到它,但在模拟器上却没有?
我需要做什么才能至少使“语音输入和输出设置”可用?
更新 1:我按照以下建议创建启用识别器的 AVD 的说明,但我仍然收到“识别器不存在”消息:
我还需要做什么?
是否有可能尽管安装了 Google Inc. 的 Google API、Android API 8、修订版 2 并使用它创建了一个特殊的 AVD,但我仍然需要从 Android Market 安装语音搜索应用程序吗?
更新 2:我按照迈克尔的更正安装了谷歌的语音搜索应用程序。这解决了“识别器不存在”的问题,但现在我遇到了一个新问题:
该应用程序的“再次说话”的建议是虚假的:再次说话会一遍又一遍地显示相同的错误消息。
wpf - 龙自然说话在 WPF 子菜单上失败
我的 WPF 应用程序菜单无法与 Dragon Natually speak 一起使用,因此我假设其他屏幕阅读器和辅助功能软件。我希望我的软件能够很好地为我的盲人和残疾客户工作。为了找出我的错误,我还尝试了其他 WPF 应用程序,如 Visual Studio 2010 和 Expression Blend 4,但它们有相同的错误。在所有情况下,我都可以使用语音下拉主菜单标题,如“文件”、“编辑”、“帮助”——但永远不能激活“新建”、“打开”或“关闭”等子菜单项。我已经阅读了有关 Accessibility 和“UI Automation”的所有内容,我尝试过运行“UI Accessibility Checker”和“Snoop”,这些应用程序似乎也枚举了我的 Menu HEADERS OK,但不是那些菜单上的项目。为什么?
android - TTS *和*语音输入同时进行?
我注意到,一旦语音识别活动开始,文本到语音的输出就会停止。
我理解其中的道理:语音识别引擎可能会“听到”TTS 输出并干扰其正常运行。
我的问题:这种行为是硬编码到系统中的,还是可以通过设置或参数(在 API 中)进行修改?
c# - .net 中的语音识别。斯芬克斯、ISIP、朱利叶斯
我想在我用 c# 编写的应用程序中实现语音识别功能。System.Speech.Recognition 不适合,因为它支持的语言数量不够。
我找到了几个引擎,但它们不是用 .net 编写的,而且我找不到任何包装器。那么,使用哪一个:Sphinx、ISIP、Julius?您知道它们的任何 .net 包装器吗?您知道任何可以提供帮助的教程或文章吗?
提前致谢
android - How do I use voice search and VoiceRecognition on Android?
I want to use VoiceRecognition in my application, but this application needs to install voice search.
I don't want the user to have to install another other application then return to my application to run it. I want voice search to be installed from my application, or alternatively I'd like to find a tutorial to on how to add Voice Search capability to my application.
What can I do?