问题标签 [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 如何设置语音识别服务器?
如何在服务器端实现语音识别(请不要建议HTML5's x-webkit-speech
,javascript等)?该程序将音频文件作为输入,并以足够的准确性提供音频文件的文本转录。我可以使用哪些选项?
我曾尝试使用 Voxforge 模型实现 Sphin4,但准确性太差(它们可能也是我的配置中的一些问题,我仍在尝试学习它)。在一篇文章中,我读到当我们使用<input name="speech" id="speech" type="text" x-webkit-speech />
输入时,输入被发送到外部服务器,该服务器进行识别并将数据发送回浏览器。
如何设置该服务器?如果任何现有的开源服务器能够以最小的错误率识别英语句子,它也会很有用。
visual-studio - Win XP 笔记本电脑上的 SAPI 版本
我有一台 Win XP Pro 笔记本电脑。我想在我的一些 VB.NET 项目中使用 Speech API。但是,当我在 Visual Studio 中打开“添加引用”对话框时,我得到了 Microsoft Speech Object Library 5.0。我决定尝试更新到 SAPI 5.1
所以我下载并解压 SpeechSDK51MSM.exe 到默认目录(C:\DOCUME~1\laptop\LOCALS~1\Temp)。(仍然不确定使用此 MSM 文件的正确方法。)
然后我下载并安装了 SpeechSDK51.exe。
不过,当我转到 Projects > Add Reference > COM 时,我得到:
Microsoft Speech Object Library 5.0 C:\Program Files\Common Files\Microsoft Shared\Speech\sapi.dll
生成的 Interop.SpeechLib.dll 文件是 5.0.0.0 版本
,我预计是 5.1.xx
难道我做错了什么?
谢谢。
google-chrome - Chrome 语音输入事件的问题
我正在尝试使用 Chrome 语音输入控件。基本操作没问题,但是输入一些语音后我无法触发事件。可能是一些愚蠢的东西,但我看不到它。
这是html:
我尝试添加内联事件处理程序,但无济于事。然后我尝试了一个 jQuery 绑定:
我还尝试将“onspeechchange”作为事件名称。据我所知,也没有任何作用。
此外,每次我点击麦克风时,都会弹出“现在说话”的小气泡。当我停止讲话时,气泡的内容消失了,但气泡本身仍然显示在顶部。在我完全关闭 Chrome 之前它不会关闭。如果我输入多个语音输入,我会得到多个气泡。我有一些 Chrome 配置问题吗?我正在使用 18.0.1025.1 dev-m。
android - Android 中的 RecognizerIntent、文本转语音:强制关闭和权限被拒绝错误
我正在阅读 Android Developer's Cookbook。我在“食谱:使用语音转文本启动活动以获得结果”。当我运行应用程序时,我得到了抱歉!/强制关闭 toast,我在 LogCat 中收到此错误:无法打开堆栈跟踪文件'/data/anr/traces.txt':权限被拒绝。
谷歌搜索了一段时间没有运气。我敢肯定这是显而易见的。这是我的代码:
android - 自动超时识别器意图
我正在玩 Android 的语音识别,并希望能够使语音识别意图超时。我正在创建并启动基于 Android API 示例代码的语音识别意图,它工作正常。如果在 N 毫秒后没有音频输入,我想要的是能够自动取消/超时语音检测。换句话说,听语音,如果在短时间内没有语音,则返回启动意图的活动。这可能吗?我查看了 RecognizerIntent 的文档,没有额外的字段来说明这样做的意图。
android - 如何在android中检索存储在外部USB设备中的数据?
我正在 android 中进行文本到语音转换的项目。如何检索存储在外部存储设备中的语音文件?
我首先尝试了一个图像,这是我的代码......它不工作..没有显示错误..但没有显示。这是我的代码
.net - 如何停止语音合成器?
如何停止 System.Speech.Synthesi.Syntheziser?有用于暂停和恢复的内置方法,但我不知道如何完全停止引擎。当我使用 SpeakAsyncCancel 方法时,状态属性表明合成器仍在说话。
我必须使用线程还是我不明白?
python - python pocketsphinx中的单词时间戳
我在 ubuntu 11.10 上使用 pocketsphinx python 绑定。我将语法和音频文件传递给它,它运行良好。我现在正在寻找音频文件中每个单词的时间戳。我见过:
我相信应该做我需要的。但是我似乎无法在python中找到这样做。这可能吗?
speech-recognition - 我正在尝试改进 Scintilla 以通过语音识别 java。有谁知道这对 Scintilla 是否可行?
我查了很多,但没有发现任何有用的东西。还有任何 API 支持可以做到这一点吗?任何链接和想法将不胜感激。
animation - 面部动画与语音同步
我正在开发一个交互式口语对话系统,用户会对系统说些什么,系统会用语音回答他,并根据语音生成面部表情。但是,我不知道如何生成面部表情。有人会告诉我我该如何开始,或者如果已经存在任何开源软件包,那就太好了。如果有人知道与此相关的任何开源软件,请告诉我。