问题标签 [microsoft-speech-platform]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
136 浏览

objective-c - 如何在微软认知语音库中使用objective-c将OutputFormat.simple设置为OutputFormat.detailed?

参考| https://docs.microsoft.com/en-us/objectivec/cognitive-services/speech/spxspeechconfiguration

目前在spxspeechconfigurationobjective-c中不包含任何setOutputFormat允许我们设置它的方法OutputFormat.detailed

我需要获取详细信息,因为当前 spxspeechconfiguration 的默认值OutputFormatOutputFormat.simple.

我在 Java for android 看到,它有这个方法 参考| https://docs.microsoft.com/en-us/java/api/com.microsoft.cognitiveservices.speech.speechconfig.setoutputformat?view=azure-java-stable#com_microsoft_cognitiveservices_speech_SpeechConfig_setOutputFormat_OutputFormat_

正如您在 java-android 方法的参考资料中看到的那样,它有setOutputFormat(),但objective-c 没有。

如何将其设置为OutputFormat.detailed使用objective-c?请指导我,谢谢。

0 投票
0 回答
227 浏览

c# - 音频环回流的 MediaFoundationResampler 总是读为 0 字节

AudioBitsPerSample.Sixteen从该程序的输出中,我可以看到 WasapiLoopbackCapture 的系统音频不适合尝试让 Microsoft Windows 的音频到文本识别工作(仅支持 8/16,例如)。我无法弄清楚的奇怪事情是为什么从未调用此代码中的重采样器。我设置了一个断点——甚至等待 5 秒让系统音频播放并放入缓冲区。我正在尝试使用音频语音识别器获取系统声音和文本。我可以看到在调试过程中字节被写入了 captureStream ,那么为什么重采样器从不输出字节呢?-Console.WriteLine("Never getting here");永远不会到达那里。

0 投票
1 回答
39 浏览

speech-to-text - 训练 MS 自定义语音模型以识别虚线 id

我想让我的 Microsoft 自定义语音模型能够识别包含数字、字符和破折号的指示符,如下所示:12-34 A-56 B78. 语音模型正确识别数字和字符。有没有办法训练它,12-34 A-56 B78当我说“十二三十四 a 五十六 b 七十八”时它会输出字符串?我需要这个用于德语语音模型。

我已经尝试过使用10000随机生成的字符串训练模型,如上面的字符串。然后我使用相关文本训练模型。

提前致谢

0 投票
1 回答
5881 浏览

wpf - .net core 3.0 中的 Microsoft Speech

我以前使用过 Microsoft Speech(不确定它是哪个版本),.net framework它确实有效。我现在的电脑上没有那个项目。我已经下载并安装了Runtime 11SDK 11,并.dll在我的.net core 3.0项目中从C:\Program Files\Microsoft SDKs\Speech\v11.0\Assembly\Microsoft.Speech.dll. 这是我现在在 ViewModel 中的内容:

在 xaml 中,我有这些:

我认为这就是我在之前的 Text2Speech 中的全部内容。现在有了所有这些,在我的 .net 核心项目中,它不起作用!

0 投票
1 回答
92 浏览

microsoft-cognitive - 请求更高的语音转文本并发性

我是 Across Cultures 的开发人员 - 我们为学校的学习者提供在线 EAL(英语作为附加语言)支持。

我一直在查看您的语音服务 API 并且有一些东西可以满足我们的要求,但是我们需要支持 20 多个与 API 的并发连接 - 目前我们正在经历多达 100 多个并发用户。

你能告诉我是否可以增加并发连接,它如何影响价格,是否可以自动扩展或者我们需要提前指定数量吗?

谢谢,

西蒙

0 投票
1 回答
147 浏览

c# - 部署时,System.Speech.dll 对象未设置为对象的实例

它在本地系统上工作,但不在实时服务器上工作。我收到错误:

0 投票
1 回答
79 浏览

microsoft-cognitive - 无法使用 Microsoft CustomSpeech 服务训练模型

半年前,我已经在Microsoft 语音门户中使用“音频 + 人工标记的转录”数据成功地训练了多个模型。现在我想训练一个新模型,但我只收到错误消息:

我尝试训练基线模型“20200115”和较旧的模型“20190927”。两者都失败并出现上述错误消息。

我已经检查了符合要求的音频数据。音频文件是 wav 文件,16 位 PCM,1 声道。

我还尝试使用我用来创建当前工作模型的旧数据创建一个新模型。此数据在语音门户中仍然可用,因此我无需再次上传。为此,我使用了相同的基线模型“20190927”并且也收到了错误消息。

那么微软,你有什么改变吗?关于数据要求的网站是否仍然是最新的?或者这是一个错误?

我能做些什么来训练一个新模型?

0 投票
1 回答
382 浏览

javascript - 使用适用于 Javascript 的 Azure 认知语音服务 sdk 的自定义关键字连续识别选项

使用 Microsoft 认知语音服务提供的自定义关键字识别器,我想使用 microsoft-cognitiveservices-speech-sdk npm 包在浏览器上设置连续识别。有没有办法设置连续的关键字识别。截至目前,只有单一时间识别选项可作为 sdk 的一部分。一旦识别出关键字,它将触发 Speech to Text 服务来处理进一步的语音。执行所需操作后,关键字识别将再次接管。有没有办法在不使用提供连续关键字识别的自定义命令的情况下完成此操作?

0 投票
1 回答
67 浏览

azure - Microsoft 聊天机器人对问题给出双重答复的问题,而不是我指示它做的 1 次

我目前正在使用微软的语音工作室来创建一个简单的聊天机器人。对于我所有的问题,我需要添加一个确认规则来询问他们是否需要进一步的帮助才能到达他们正在寻找的位置。然而,在它到达语音命令的最后一部分之后,它会一直说语音 2 次,而不是只说一次。例如,对于这个关于房间 b 在哪里的问题,它会说两次语音响应,而不是它过去仅在 2 天前输出的一次。

例句页面

这是我在语音工作室中的确认命令,询问他们是否需要帮助才能到达该位置 这是我的成功命令,假设用户在确认阶段说是

然而,这个问题就在昨天我测试聊天机器人时出现了。我在测试期间得到了这个输出:“当然,请现在跟我来”两次,而不是我需要的一次。 这是在测试阶段出现的。如您所见,它说当然请现在关注我 2 次,而不是我需要的 1 次

0 投票
2 回答
598 浏览

speech-to-text - 如何在没有先前语音注册的情况下使用 Microsoft 语音到文本进行说话人识别(分类)?

在我的应用程序中,我需要记录人与人之间的对话,并且物理工作流程中没有空间对每个人的声音进行 20 秒的采样以训练识别器,也没有要求每个人阅读预设密码进行训练. 但是,据我所知,如果不这样做,就无法获得说话者的身份。

有没有什么方法可以只记录 5 个人说话并让识别器自动将返回的文本分类为属于 5 个不同的人之一,而无需先前的培训?

(值得一提的是,IBM Watson 可以做到这一点,尽管在我的测试中它做得不是很准确。)