问题标签 [microsoft-speech-platform]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - Microsoft.Speech:从字典中添加到选择
我用 "string, int" 创建了一个字典。我目前正在尝试通过执行“ch_Stk.Add”将单词纳入选择中。
我怎样才能在那里输入字典?
speech-recognition - 在 Microsoft Speech SDK 中使用单个字母
当我刚使用这些字母时,D 与 B 混淆了,很多字母与其他字母混淆了,所以我将任何不正确的字母替换为一个单词或名称,但正如你所见,它是一半他们。我想知道是否有任何解决方案可以说例如“D”而不会与“B”混淆?
bing - Bing Speech to text 识别超时
我目前正在使用 Microsoft Bing Speech to Text api。我想在 n 秒的静音时停止音频收听。这可能吗?
microsoft-cognitive - 使用 Web 套接字 url 时出现 Microsoft 自定义语音服务问题
所以最近对于一个工作项目,我一直在玩语音到文本模型,特别是自定义语音到文本模型。通过一些混合和匹配示例,我设法让一个测试应用程序与正常的 Bing 语音到文本 API 对话。但是当我尝试将它与自定义语音实例一起使用时,只有 HTTPS URL 有效。当我使用任何可用的长格式 Web 套接字 URL时,An unhandled exception of type 'System.NullReferenceException' occurred in SpeechClient.dll
就会发生错误。这有点问题,因为该端点仅支持 2 分钟的转录,而 websocket 端点最多支持 10 分钟。
这个https://docs.microsoft.com/en-us/azure/cognitive-services/custom-speech-service/customspeech-how-to-topics/cognitive-services-custom-speech-use-endpoint页面是什么我要走了 它说我应该在创建服务时使用 web socket url,但这会导致上面的错误。
这是我用于尝试的测试床代码:
提前感谢您的帮助。
speech-recognition - Microsoft Speech 产品/平台之间的差异
微软似乎提供了不少语音识别产品,我想知道它们之间的区别。
有Microsoft Speech API或 SAPI。但不知何故,微软认知服务语音 API具有相同的名称。
现在好了,Azure 上的 Microsoft Cognitive Service 提供Speech service API和Bing Speech API。我假设对于语音到文本,两个 API 是相同的。
然后是System.Speech.Recognition(或 Desktop SAPI)、Microsoft.Speech.Recognition(或 Server SAPI)和Windows.Media.Speech.Recognition。这里和这里对三者之间的区别进行了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?
对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。(即使 Bing API 似乎有一个C# 桌面库..)
本质上,我希望为我的对话数据(每次录音 5-10 分钟)提供一个离线模型,它可以识别多说话者并输出时间戳(或时间编码输出)。我现在对所有选项都感到有些困惑。如果有人可以向我解释,我将不胜感激,非常感谢!
microsoft-cognitive - Microsoft 自定义语音服务缺少听写方案
为什么cris.ai上没有听写场景,只有对话场景?我的用户需要能够指定标点符号,而对话场景无法处理这个问题。它在过去得到支持,但不再存在。我错过了什么吗?
speech-recognition - 微软自定义语音识别定价方案
我一直在研究 Microsoft Custom Speech Recognition (CRIS),并询问了它的定价计划。在他们的定价计划中,微软提到了 S0 计划的以下详细信息:
语音翻译 - 每小时 2.50 美元 语音到文本 - 每小时 1 美元 使用自定义语音模型的语音到文本 - 每小时 1.40 美元 语音端点托管 - 40.00 美元/模型/月
我的问题可能是业余的,因为我刚刚开始研究这个但是当他们提到每小时时,即使我没有达到我的演讲终点,这是否计算小时数,即定价是否在我创建资源时开始?
例如 - 如果我创建了我的 Speech to Text 服务并且在 24 小时内只点击了一次,我将仅按将我的语音转换为文本所需的时间付费,还是将按 24 * $1 收费,无论使用情况如何?
c# - System.Speech.Synthesis 和 Microsoft.Speech.Synthesis 有什么区别?
我目前正在用 C# 开发一个实现 Text-To-Speech 的小程序。但是,我发现可以使用两个命名空间:
- 系统.语音.综合
- Microsoft.Speech.Synthesis
我用谷歌搜索了差异,发现这篇关于语音识别的帖子。它并没有真正回答我的问题。我也在他们两个之间切换,没有任何区别。它适用于代码中的所有语言(如下)。
有人可以解释一下他们两个之间的区别吗?
text-to-speech - Microsoft 语音合成,SpeakSsmlAsync 没有语言属性
我正在使用 Microsoft Speech Synthesis 来播放我的 SSML 字符串, public Prompt SpeakSsmlAsync(string ssmlText);
并且我有一个不应该使用的要求,xml:lang
但是当我从字符串中删除 xml:lang 属性时,ssml
我遇到了异常
'speak' 需要属性 'xml:lang'
xml:lang
那么有没有一种方法可以让我在不使用属性的情况下播放我的 SSML 字符串并让语音引擎处理它?
我想玩但失败了:
使用 lang 属性:
提前致谢。