问题标签 [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1733 浏览

matlab - MATLAB 中的实时语音转换

是否可以使用 MATLAB(近乎)实时转换语音(音高/共振峰转换)?怎么做到呢?

如果没有,我应该用什么来做到这一点?

我需要从麦克风获取输入,可视化声波,为其添加滤波器,再次查看示波器,然后播放修改后的声音。

实时可视化(频谱图)可以使用 Hideki Kawahara 的SparkNG包创建。

0 投票
1 回答
318 浏览

android - 如何在 Android 中从音频中检测语音成分?

什么是实时检测音频流的语音部分的简单方法:?我已经阅读了有关使用 MFCC、FFT 等的信息。但我找不到任何关于如何完成的明确解释。

此外,是否有任何 PC 程序可以分析 wav 文件并检测其中是否存在人类语音?

0 投票
1 回答
1699 浏览

embedded - 小型嵌入式合成语音库/建议

对于代码大小比语音质量更重要的 PIC 和/或 ARM 嵌入式系统,是否有任何易于使用的免费或廉价语音合成库?现在看来 1 兆的封装被认为是“紧凑的”,但很多微控制器都比这小。早在 1980 年代,Apple 聘请了一家承包商来生产 Macintalk,它以 26K 封装提供质量合理的语音,运行在 7.16MHz 68000 上,一个名为 SAM 的程序可以产生不太好的语音,但仍然可以使用,具有在 1MHz 6502 上运行的 16K 封装。SpeakJet 在某种类型的 PIC 上运行语音合成算法。

我可能不会特别需要产生语音,但希望能够说出由许多预设单词组成的信息。显然,可以简单地预先录制所有消息,但是对于例如 100 个单词的词汇表,我认为存储 16K 的代码加上可能 1K 的语音字符串会比存储 100 个单词的音频更紧凑。

或者,如果我想存储 100 个单词的音频,那么生成一组自然流动的单词的最佳方法是什么?在老式语音合成器上,任何给定的单词都可以用三种方式说出:中性屈折、下降屈折(好像后面跟着一个句号)或上升屈折(后面跟一个问号)。带有中性变形的单词可以按任何顺序拼接在一起,听起来不错。不过,我发现的 text-to-wave 工具似乎喜欢添加更精细的变形细节,如果单词被分割并重新排序,这听起来“关闭”。是否有任何工具设计用于产生可以很好地连接和拼接的波?如果我确实使用了这样的工具,那么哪种音频格式最适合存储波形,以便在小型微控制器上进行高效解码?

0 投票
1 回答
1190 浏览

java - 是否有适用于 java 的 CMU Sphinx 本地 lmtool?

我想将单词转换为其 Arpabet 翻译。

就像是:

但我想在 java 中以编程方式进行,sphinx 在http://www.speech.cs.cmu.edu/tools/lmtool.html提供了一个网络工具。我知道我可以使用套接字在 Java 中请求这个工具并嗅出返回的 .dic 文件,但我不能使用它,因为并非我的应用程序的所有用户都有互联网连接。

我还检查了 Sphinx 的 logios 包,但它是用 perl 和批处理文件编写的。我可以使用它,但我想让我的应用程序独立于平台,如果我在项目中包含 perl shell,我认为这有点过火了。

如果有任何我可以重用的 java 库或算法,那么我可以执行类似的操作ConvertToSphinxArpabet("HELLO"),然后我会返回“HH AH L OW”字符串。

0 投票
2 回答
378 浏览

html - 是否可以为语音输入字段定义动态语法(使用 PHP 创建)?

是否可以为语音输入字段定义动态语法(使用 PHP 创建)?

请参阅http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html

我想内联(使用 PHP 添加到我的 HTML 中),但我找不到任何示例。

0 投票
2 回答
4266 浏览

html - Is there a way to use a grammar with the HTML 5 speech input API?

I'm working with the HTML 5 speech input API and I want to let the server know which answers it can expect to be returned from the speech input. Is there a way to set a list of possible inputs?

0 投票
1 回答
1260 浏览

python - 将来自 Dragon NaturallySpeaking 的所有输入重定向到 Python?(使用 Natlink)

我目前正在编写一个 AI 程序,它接收来自 Dragon NaturallySpeaking(使用 Natlink)的输入,对其进行处理,然后返回语音输出。我能够想出一个接收器语法库,它捕获来自 Dragon 的所有输入并将其发送到我的解析器。

此代码按预期工作,但有几个问题:

  1. Dragon 在将输入发送到我的程序之前对其进行处理。例如,如果我说“打开 Google Chrome。”,它会打开 Google Chrome,然后将输入发送到 Python。有没有办法在不先处理输入的情况下将输入发送到 Python?

  2. 当我调用 waitForSpeech() 时,会弹出一个消息框,说明 Python 解释器正在等待输入。是否有可能(为了美观和方便)阻止消息框出现,而是在用户显着暂停后终止语音收集过程?

谢谢!

0 投票
1 回答
1818 浏览

ios - IOS 声音处理、电平检测

我将在 IOS 中进行纺纱处理。应用程序运行时,会收集声音。当用户开始说话时,灯会变成红色,当他们停止时,它会变回绿色并开始处理。

您是否有关于检测语音部分的开始和结束的最佳方法的建议,以及有关如何选择该部分以传递给处理例程的任何提示。.

0 投票
1 回答
1998 浏览

python - 有人熟悉微软语音识别 API 吗?

我正在用 python 编写一些语音识别代码,我希望它能够打开微软语音识别系统,但我希望该系统忽略所有常规的 gui 界面命令。因此,如果我说出它可以识别的内容,它会忽略它并让我的程序处理它。

0 投票
4 回答
4977 浏览

c# - .NET 中的语音识别不起作用

我正在使用一个简单的语音识别应用程序来通过并行端口控制继电器,这是它应该如何工作的基本程序。

这在我朋友的电脑上完美运行,但在我的电脑上它无法识别我所说的内容,也许它没有得到输入。我们都有几乎相同的配置。麦克风也很好用,我不知道出了什么问题。

我已安装 Microsoft 语音平台 - 软件开发工具包 (SDK),版本 10.2(x86 版) Microsoft 语音平台 - 服务器运行时,版本 10.2(x86 版)

请帮帮我。