问题标签 [microsoft-speech-api]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1209 浏览

c# - 将音频流输入到 FFMPEG

我正在使用 C# 和 ffmpeg.exe 构建一个实时聊天应用程序。我的要求是从 Microsoft Speech API 获取内存流并将其实时提供给 ffmpeg 进程。我可以从 Microsoft Speech API 获取内存流。我正在使用以下代码来创建内存流。

我已经在使用另一个数据管道和另一个命令来将视频内容提供给 ffmpeg。但是我找不到通过数据管道提供音频的稳定解决方案。本文简要介绍了音频数据管道。我正在使用以下命令来流式传输音频。

但它不适用于数据管道。如果我尝试使用 mp3 或 wav 文件的命令,它可以工作。

0 投票
1 回答
1750 浏览

c# - 如何使用 C# 获取与单词对应的发音音素?

我会先说我在 C# 编程方面非常新手。我正在开发一个应用程序,用于使用 C# 和 SAPI v5.4 ( speechlib ) 以编程方式修改 Windows 语音词典。到目前为止一切都运行良好,但我需要更深入地了解字符串在合成(发声)时是如何解释的。

我的理解是,在 SAPI 5.4 中,单词被分解为音素表示,并且我在使用音素正确“训练”单词发音方面取得了一些成功。我也知道我可以手动将单词添加到 Windows 语音识别词典中,提供录音,然后提取单词的发音(音素)……但这很麻烦。探索默认情况下如何合成单词也很有用,即在没有我输入的情况下(例如合成器如何解释“海豚”?)。

从编码的角度来看,这是我到目前为止所得到的:

0 投票
1 回答
559 浏览

machine-learning - 谷歌离线语音识别支持

是否有任何嵌入式语音识别不需要阿拉伯语的互联网连接?

为什么google的手机语音识别离线和在线都支持英语等语言,而不像在线模式下只支持阿拉伯语等语言?

0 投票
0 回答
274 浏览

c# - 语音词典输入的 SAPI 符号用法

我一直在做一些工作,通过 SAPI 5.4 的SpLexicon 接口(我认为这是唯一的方法)通过AddPronunciation函数将单词和发音添加到 Windows 语音词典,或者在我的情况下:

我正在参考美国英语音素表来确定要使用的 SAPI 符号。我注意到虽然使用强调标记“1”或“2”以及音节标记“-”似乎不会影响 TTS 发音。这些修饰符符号是否仅用于 XML 输入,还是我可能做错了什么?

0 投票
2 回答
300 浏览

microsoft-cognitive - 使用 Web 套接字 url 时出现 Microsoft 自定义语音服务问题

所以最近对于一个工作项目,我一直在玩语音到文本模型,特别是自定义语音到文本模型。通过一些混合和匹配示例,我设法让一个测试应用程序与正常的 Bing 语音到文本 API 对话。但是当我尝试将它与自定义语音实例一起使用时,只有 HTTPS URL 有效。当我使用任何可用的长格式 Web 套接字 URL时,An unhandled exception of type 'System.NullReferenceException' occurred in SpeechClient.dll就会发生错误。这有点问题,因为该端点仅支持 2 分钟的转录,而 websocket 端点最多支持 10 分钟。

这个https://docs.microsoft.com/en-us/azure/cognitive-services/custom-speech-service/customspeech-how-to-topics/cognitive-services-custom-speech-use-endpoint页面是什么我要走了 它说我应该在创建服务时使用 web socket url,但这会导致上面的错误。

这是我用于尝试的测试床代码:

提前感谢您的帮助。

0 投票
1 回答
217 浏览

javascript - 将 Speech to Text 模块添加到 C# bot

我需要将 Speech to Text 功能添加到用 C# 编写的 MS 机器人中。

我是 C# 的新手(虽然我知道 C++)并且想知道我是否可以使用 JS。我非常熟悉 JavaScript,并使用 SpeechSynthesis API 为一个用 Python 编写的机器人编写了 Speech to Text 模块。

还是我弄清楚 C# 更好?(我必须为此使用另一个 API,比如 Bing Speech API)。

分享你的想法。

0 投票
0 回答
148 浏览

python - 使用 Python 的 Microsoft Bing 语音 API:无 JSON 对象

我正在尝试使用 Python 实现 Microsoft Bing Speech REST API,并且我在网上找到了一些代码。

https://www.taygan.co/blog/2018/02/09/getting-started-with-speech-to-text

我已经按照上面的代码(并更改了密钥和音频文件名),但不断得到这个:

完全新手,所以真的不明白发生了什么。谢谢!

注意:我也尝试过这个 GitHub Repos中的代码, 但是我收到了很多错误。

0 投票
2 回答
4675 浏览

speech-recognition - 语音到文本的大型音频文件 [Microsoft Speech API]

使用 Microsoft Speech API 转录中/大型音频文件的最佳方式是什么,每个文件约 6-10 分钟?诸如批量音频文件转录之类的东西?

我已使用https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-to-text-sample中提供的代码来连续转录语音,但它会在某些时候停止转录观点。转录有什么限制吗?我只使用免费试用帐户 atm。

顺便说一句,我认为必应语音 API 和新的语音服务 API 之间没有区别,对吧?

谢谢大家!

0 投票
1 回答
1769 浏览

speech-recognition - Microsoft Speech 产品/平台之间的差异

微软似乎提供了不少语音识别产品,我想知道它们之间的区别。

  • Microsoft Speech API或 SAPI。但不知何故,微软认知服务语音 API具有相同的名称。

  • 现在好了,Azure 上的 Microsoft Cognitive Service 提供Speech service APIBing Speech API。我假设对于语音到文本,两个 API 是相同的。

  • 然后是System.Speech.Recognition(或 Desktop SAPI)、Microsoft.Speech.Recognition(或 Server SAPI)和Windows.Media.Speech.Recognition这里这里对三者之间的区别进行了一些解释。但我的猜测是它们是基于 HMM 的旧语音识别模型,也不是神经网络模型,这三个模型都可以在没有互联网连接的情况下离线使用,对吧?

  • 对于 Azure 语音服务和必应语音 API,它们是更高级的语音模型,对吧?但我认为没有办法在我的本地机器上离线使用它们,因为它们都需要订阅验证。(即使 Bing API 似乎有一个C# 桌面库..)

本质上,我希望为我的对话数据(每次录音 5-10 分钟)提供一个离线模型,它可以识别多说话者并输出时间戳(或时间编码输出)。我现在对所有选项都感到有些困惑。如果有人可以向我解释,我将不胜感激,非常感谢!

0 投票
2 回答
283 浏览

azure - 微软翻译语音缺少标点符号

我正在使用 MS Translator Speech WebSocket API 进行实时语音识别和翻译。问题是有时识别的文本没有标点符号(逗号、句号等)。否则,转录的文本看起来不错。我还收到了带有合成翻译的 MP3。

它看起来完全随机,我可以多次发送相同的音频,有些回复有标点符号,有些没有。我正在以正确的格式和近乎实时的速率发送音频,例如,我每 ~ 100 毫秒发送 100 毫秒样本。公认的语言是西班牙语。

这是一个常见问题还是有其他问题?