问题标签 [microsoft-speech-api]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 如何在应用程序中使用必应语音 API?
我以前从未使用过必应语音 API,所以我对必应语音 API 有很多疑问。
如果我想使用 Bing 语音 API 制作 Android 应用程序,我应该在 Azure 订阅 bing 语音 API 吗?
我应该注册 LUIS 吗?
我想知道“主键”和“订阅键”之间的区别。
speech-recognition - C# WinForm App 的免费语音识别
我正在尝试为 C# Windows 窗体应用程序可执行文件找到免费的语音识别,它可以作为谷歌语音识别,识别并将绝对新词转换为文本。
我尝试使用 System.Speech.Recognition;不同的方式,但它适用于预先录制的命令,我无法获得这样的结果,例如它与 Python 的 Google Speech Recognition 一起使用,这至少是 95% 的正确结果,足以说,这很好,但显然,如果我没有密钥,它就不能免费使用,也不能在可执行文件中使用。
所以我想试试微软认知服务的 Bing Speech API,但找不到任何如何编码的例子,一些基本的例子。如果有人处理过这个工具,你能帮我弄清楚吗
http-post - 带有 Python 请求的 Microsoft Speech API?
我正在尝试使用 Python 中的requests包来调用 Microsoft Bing Speech Transcription API。我可以在使用Postman时进行调用,但这需要手动选择要上传的文件(Postman 提供了一个 GUI 来选择文件),但我不确定这个文件选择如何映射到实际的 HTTP 请求(和通过扩展 Pythonrequests
请求)。Postman 可以将其内部查询转换为代码,根据 Postman 的说法,它发出的 http 请求是:
如果通过 Pythonrequests
库发出的等效请求将是:
但是请注意,在这两种情况下,生成的代码都不会真正传递要转录的音频文件(显然 Postman 不知道如何显示原始音频数据),所以我不确定如何将这些关键信息添加到请求中。我假设在 HTTP 请求代码的情况下,音频流进入显示为“未定义”的位置。在 Python requests 命令中,从阅读文档看来,该response = requests.request(...)
行应该替换为:
但是当我运行这个查询时,我得到“请求超时(> 14000 毫秒)”。关于如何通过 Python 成功调用 Microsoft Speech API 的任何想法?任何帮助将不胜感激,谢谢。
microsoft-cognitive - 用于自定义语音服务的 NodeJs websocket 客户端
我想使用 Java、NodeJs、Go 等编程语言为自定义语音服务创建一个 websocket 客户端。我在哪里可以找到有关如何从头开始使用该 websocket 的一些技术信息(预期的消息、字段等)?我已经阅读了 CSS 文档,但它侧重于如何使用用于 C#、javaScript、Android 的 SDK 库。如果想为不同的语言创建自己的 SDK,我应该考虑什么?
提前致谢。
c# - System.Speech 识别字母和数字而不是单词或句子
我正在尝试使用 System.Speech 而不是单词或句子来基本识别字母和数字。我正在使用这篇文章的最佳答案中的代码示例。以下是我看到的一些奇怪的结果:
是否有不同的语法集,或者 GrammarBuilder 的一种方法可以让我将识别限制为只听一系列字母和数字?
c# - 必应语音 API 和机器人框架
我正在尝试在 Bot Framework 中使用 Bing 的语音 API(我对这两种技术都很熟悉)。具体来说,我正在尝试使用它支持的 DataClientWithIntent。我可以在 GitHub中查看此示例,但不幸的是,这似乎只使用了 DataClient,我无法确定它的指定位置。API 以下列方式调用:
如您所见,传入了一个流,但不幸的是,这只写回了用户写的内容。
我已经开发了一个测试机器人,它使用 Luis 应用程序来满足我的需求,但我想增加用户与它交谈或打字并获得相同结果的能力。我确实找到了另一个示例,但这是直接通过 Skype 框架实现的,目前我对此并不感兴趣。
任何想法、文档或澄清将不胜感激。
c# - 设置 Microsoft Bing 语音识别时的问题
我正在尝试使用 Microsoft 的 Bing 语音识别服务库。以下命令必须在带有参数的 cmd 中给出。但是我不知道应该以哪种格式输入此命令。我在任何地方都找不到它。有人能帮我吗?我应该指定一个现有的音频 WAV 文件吗?应该给出路径吗?什么是“音频语言环境”?
SpeechClientSample.exe
使用以下参数运行:
Arg[0]
:指定输入音频 WAV 文件。Arg[1]
:指定音频区域。Arg[2]
:指定识别模式:短ShortPhrase
模式和长LongDictation
模式。Arg[3]
:指定订阅密钥以访问语音识别服务。
speech-recognition - 在 Microsoft Speech SDK 中使用单个字母
当我刚使用这些字母时,D 与 B 混淆了,很多字母与其他字母混淆了,所以我将任何不正确的字母替换为一个单词或名称,但正如你所见,它是一半他们。我想知道是否有任何解决方案可以说例如“D”而不会与“B”混淆?
angular - 使用 Angular 开始工作 Microsoft Speech API
嗨,我试图找到一种方法让 Angular 5 与 Microsoft Speech API 一起工作,我将 microsoft-speech-browser-sdk 用于 javascript
https://github.com/Azure-Samples/SpeechToText-WebSockets-Javascript
我只是从 'microsoft-speech-browser-sdk' 导入 SDK 导入 * 作为 SDK;我尝试在示例中使用相同的代码
但我有这个错误 SDK.Recognizer.CreateRecognizer is not a function 我知道 skd 是导入的,因为它执行第一个函数
我也找不到 API 参考 有没有人用 Angular 完成了这项认知服务?
bing - Bing Speech to text 识别超时
我目前正在使用 Microsoft Bing Speech to Text api。我想在 n 秒的静音时停止音频收听。这可能吗?