问题标签 [speech-recognition]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
web-applications - 网络语音命令
我只是对这个场景感兴趣。假设您正在构建一个 Web 应用程序,并且希望接收语音命令并根据语音到文本的结果执行操作。
是否有任何主要障碍可能使其成为杀手级应用程序?
nlp - 语音识别软件的不同层次
有语音层次、句法层次、语义层次、音韵层次、声学层次、语言层次、语言层次。
还有其他级别吗?
自下而上的顺序是什么?
它们到底是关于什么的?
android - 如何参数化android语音识别?android.speech.action.RECOGNIZE_SPEECH 不做任何事情
如何正确参数化语音识别器,以便它可以更轻松地识别用户可能会说的单词?
据我所知,没有办法。
我相信这个网站是错误的:http ://www.4feets.com/2009/04/speech-recognition-in-android-sdk-15/
根据该站点,此代码: ArrayList< String > potentialResults = new ArrayList< String >();
potentialResults.add("黄色");
潜在结果.add("绿色");
潜在结果.add("蓝色");
潜在结果.add("red");
将提示识别器您可能会说出这些话。但是,它似乎完全没有做任何事情。它也与谷歌文档冲突,其中说:
“执行 ACTION_RECOGNIZE_SPEECH 时的潜在结果的 ArrayList。仅在返回 RESULT_OK 时出现。” 这暗示该数组是返回值而不是输入。
要对此进行测试,请尝试添加: ArrayList< String > potentialResults = new ArrayList< String >();
potentialResults.add("孜然"); 并尝试让语音识别器识别它。你会发现它非常困难。
有没有人了解如何正确控制语音识别器?
c++ - 映射 ISpMMSysAudio::SetLineId 和 mixerLineId
我想通过调用 ISpMMSysAudio::SetLineId 为 SAPI 设置 lineId。我从我拥有的搅拌机手柄上找出我想设置的线。然而,我从混音器获得的线路 ID 不是 SAPI 所假设的。这会导致 SAPI 监听麦克风的错误输入线,因此没有输入。
我正在为混音器手柄获取“DST_WAVEIN”的多路复用器控制,然后检查麦克风的哪个源线处于活动状态。我希望将活动行设置为 SAPI 的“输入”。
我通过枚举 MUX 控制从混音器获取线路 ID,如下所示:
int GetSelectedWaveInLine(UINT uMixrId) { int iRetVal = -1; MMRESULT 毫米结果;HMIXER dwMixerHandle;
}
Mixer 返回的索引与 ISpMMSysAudio 使用的索引不匹配。我的语音引擎选择不同的线路 ID。
谢谢
wpf - MAC 和 PC 上的语音识别
我必须制作应该在 MAC 和 PC 上运行的语音识别应用程序,我对 SAPI 有一个想法,但它只适用于 PC,而不适用于 MAC。
我可以使用任何其他 API 或框架来实现这一点,编程语言对我来说不是吧。
speech-recognition - 如何在使用 sapi 5.3 进行免费听写时获取更正命令?
我有一个使用 sapi 5.3 进行基本听写的示例应用程序。
输入带有标点符号的文本效果很好......
我需要做什么来启用教程中的更正功能(正确的单词,选择......)?
是否有特定的语法要加载(哪个以及如何加载),要实现一些特定的事件?
multilingual - Sphinx 语音识别器中的其他语言支持
我正在为我们的一个项目分析Sphinx语音识别器。要求是将语音转换为文本,支持包括英语(美国)在内的 6 种语言。有人知道这在 Sphinx 中是否可行吗?
我们选择 Sphinx 的原因是我们希望应用程序兼容 Windows、Mac 和 Linux 平台。
speech-recognition - Sphinx II 识别读取和识别
我正在尝试使用 Sphinx II 实现语音识别器客户端,我的目标是让某人阅读文本中的书面句子,并对每个单词进行置信度评分。所以为此我使用有限状态语法和有限的字典。
我得到了一些工作,但信心得分非常低(< 0.30)。我使用的设置与 Sphinx 2 的简单 Reco 示例相同。由于每个发音的单词只有一种可能性(每个单词在语法中是一种状态),我通常应该有高分和高效的识别,但是假设需要时间来计算。我也得到了这个词一被发音的假设。所以现在我实际上不知道该去哪里改进这一点。我是否为此类问题使用了正确的解决方案?我应该改用语言模型吗?如果是,如何将上下文限制为故事中的给定句子?
我还需要使用狮身人面像训练器吗?到目前为止,我已经使用网络工具生成了语言模型/字典。
您的帮助将不胜感激。谢谢,鲍里斯·古根
speech-recognition - 使用音频而不是麦克风的 Julius 语音识别
我需要用一些音频来测试Julius Speech to Text 的转换。此外,还可以模拟音频上的噪声。
有人知道这样的软件吗?有人和朱利叶斯合作过吗?对图书馆有任何意见吗?
speech-recognition - 在 SAPI 5.1 中加载多个语法文件
我正在使用 XML 语法文件来开发命令和控制应用程序。由于语法中有大约 4000 个条目,我不能将它们全部放在一个文件中(当我尝试加载它时会出错)。我已经编写了多个 XML 语法文件,但是当我尝试加载多个文件时,它会替换之前加载的文件。那就是程序只识别第二个语法文件中的短语。谁能告诉我如何在单个语音识别应用程序中加载多个语法?