问题标签 [microsoft-speech-platform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
62 浏览

c# - Microsoft.Speech:从字典中添加到选择

我用 "string, int" 创建了一个字典。我目前正在尝试通过执行“ch_Stk.Add”将单词纳入选择中。
我怎样才能在那里输入字典?

0 投票
0 回答
98 浏览

speech-recognition - 在 Microsoft Speech SDK 中使用单个字母

当我刚使用这些字母时,D 与 B 混淆了,很多字母与其他字母混淆了,所以我将任何不正确的字母替换为一个单词或名称,但正如你所见,它是一半他们。我想知道是否有任何解决方案可以说例如“D”而不会与“B”混淆?

0 投票
0 回答
134 浏览

bing - Bing Speech to text 识别超时

我目前正在使用 Microsoft Bing Speech to Text api。我想在 n 秒的静音时停止音频收听。这可能吗?

0 投票
2 回答
300 浏览

microsoft-cognitive - 使用 Web 套接字 url 时出现 Microsoft 自定义语音服务问题

所以最近对于一个工作项目,我一直在玩语音到文本模型,特别是自定义语音到文本模型。通过一些混合和匹配示例,我设法让一个测试应用程序与正常的 Bing 语音到文本 API 对话。但是当我尝试将它与自定义语音实例一起使用时,只有 HTTPS URL 有效。当我使用任何可用的长格式 Web 套接字 URL时,An unhandled exception of type 'System.NullReferenceException' occurred in SpeechClient.dll就会发生错误。这有点问题,因为该端点仅支持 2 分钟的转录,而 websocket 端点最多支持 10 分钟。

这个https://docs.microsoft.com/en-us/azure/cognitive-services/custom-speech-service/customspeech-how-to-topics/cognitive-services-custom-speech-use-endpoint页面是什么我要走了 它说我应该在创建服务时使用 web socket url,但这会导致上面的错误。

这是我用于尝试的测试床代码:

提前感谢您的帮助。

0 投票
1 回答
1769 浏览

speech-recognition - Microsoft Speech 产品/平台之间的差异

微软似乎提供了不少语音识别产品,我想知道它们之间的区别。

  • Microsoft Speech API或 SAPI。但不知何故,微软认知服务语音 API具有相同的名称。

  • 现在好了,Azure 上的 Microsoft Cognitive Service 提供Speech service APIBing Speech API。我假设对于语音到文本,两个 API 是相同的。

  • 然后是System.Speech.Recognition(或 Desktop SAPI)、Microsoft.Speech.Recognition(或 Server SAPI)和Windows.Media.Speech.Recognition这里这里对三者之间的区别进行了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?

  • 对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。(即使 Bing API 似乎有一个C# 桌面库..)

本质上,我希望为我的对话数据(每次录音 5-10 分钟)提供一个离线模型,它可以识别多说话者并输出时间戳(或时间编码输出)。我现在对所有选项都感到有些困惑。如果有人可以向我解释,我将不胜感激,非常感谢!

0 投票
1 回答
53 浏览

microsoft-cognitive - Microsoft 自定义语音服务缺少听写方案

为什么cris.ai上没有听写场景,只有对话场景?我的用户需要能够指定标点符号,而对话场景无法处理这个问题。它在过去得到支持,但不再存在。我错过了什么吗?

0 投票
2 回答
209 浏览

speech-recognition - MS Speech Platform 11 识别器是否支持 ARPA 编译语法?

如何在 MS Speech 中使用 ARPA 文件?Microsoft Speech Platform 11 Recognizer 的文档暗示可以从 ARPA 文件编译语法。

我能够编译一个 ARPA 文件——例如,微软提供的小例子——使用以下命令行:

我可以在以下测试中使用生成的 CFG 文件:

此测试通过,但请注意它使用EmulateRecognize(). 当我切换到使用实际的音频文件时,如下所示:

结果始终为空,并且测试失败。

微软非常明确地声明它是受支持的,但即使是非常简单的示例似乎也不起作用。我究竟做错了什么?

0 投票
2 回答
1177 浏览

speech-recognition - 微软自定义语音识别定价方案

我一直在研究 Microsoft Custom Speech Recognition (CRIS),并询问了它的定价计划。在他们的定价计划中,微软提到了 S0 计划的以下详细信息:

语音翻译 - 每小时 2.50 美元 语音到文本 - 每小时 1 美元 使用自定义语音模型的语音到文本 - 每小时 1.40 美元 语音端点托管 - 40.00 美元/模型/月

我的问题可能是业余的,因为我刚刚开始研究这个但是当他们提到每小时时,即使我没有达到我的演讲终点,这是否计算小时数,即定价是否在我创建资源时开始?

例如 - 如果我创建了我的 Speech to Text 服务并且在 24 小时内只点击了一次,我将仅按将我的语音转换为文本所需的时间付费,还是将按 24 * $1 收费,无论使用情况如何?

0 投票
1 回答
1396 浏览

c# - System.Speech.Synthesis 和 Microsoft.Speech.Synthesis 有什么区别?

我目前正在用 C# 开发一个实现 Text-To-Speech 的小程序。但是,我发现可以使用两个命名空间:

  • 系统.语音.综合
  • Microsoft.Speech.Synthesis

我用谷歌搜索了差异,发现这篇关于语音识别的帖子。它并没有真正回答我的问题。我也在他们两个之间切换,没有任何区别。它适用于代码中的所有语言(如下)。

有人可以解释一下他们两个之间的区别吗?

0 投票
0 回答
82 浏览

text-to-speech - Microsoft 语音合成,SpeakSsmlAsync 没有语言属性

我正在使用 Microsoft Speech Synthesis 来播放我的 SSML 字符串, public Prompt SpeakSsmlAsync(string ssmlText);并且我有一个不应该使用的要求,xml:lang但是当我从字符串中删除 xml:lang 属性时,ssml我遇到了异常

'speak' 需要属性 'xml:lang'

xml:lang那么有没有一种方法可以让我在不使用属性的情况下播放我的 SSML 字符串并让语音引擎处理它?

我想玩但失败了:

使用 lang 属性:

提前致谢。