问题标签 [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2855 浏览

android - 语音中的情绪检测

我想构建一个应用程序来分析麦克风语音的情感内容。

尽管有时用作额外功能,但这并不涉及语音识别。情绪分析基于声音的韵律特征(音高变化、速度等、音调)。

我知道这可以在台式计算机上完成,但我不希望用户必须将他们的录音(电话对话)上传到服务器才能获得情感反馈。

我需要的是一个提供整个分析的 API,或者一个我可以用来提取这些特征的 API(即对话的平均速度)。

外面有这样的东西吗?

提前致谢!

0 投票
2 回答
1214 浏览

google-chrome - 在 Chrome 中自动录制语音输入

我正在尝试自动录制 Google语音输入中的语音(仅适用于 Chrome)。

事实上,用户必须单击麦克风才能开始录制,但我正在安装一个用户不会与计算机交互的安装。因此,我必须以其他方式触发录制。

就您似乎无法通过代码访问语音输入功能而言,即您无法调用函数来开始录制。所以现在我正在研究模拟鼠标点击麦克风。
我尝试过使用 javaScript,但似乎只有事件和事件处理程序受到影响(例如,对输入字段的模拟点击会触发其点击处理程序,但不会将焦点放在该字段上。)

所以现在我正在研究模拟 Windows 系统的鼠标点击,我发现了一些可以做到这一点的程序(主要是在间隔上)并且它可以工作,录制开始。但问题是我必须从浏览器应用程序中激活点击模拟。
到目前为止,最好的选择是AutoHotkey,它使您能够创建自定义脚本,在我的例子中是模拟鼠标在给定位置单击的脚本。所以,如果我可以从浏览器执行这个脚本,我会很安全,但我不知道该怎么做。

欢迎任何想法和/或想法!

0 投票
1 回答
1056 浏览

flash - 如何使用带有 Flash 或类似功能的 Google Speech API?!或者是否有另一个很好的语音(从视频)到文本的 API?

我们正在寻找一个 api 来获得语音到文本。在我们的例子中,我们想要将音频挖掘添加到视频文件中,这意味着我们想要自动为视频生成标签词,并让用户有机会直接跳转到说出标签词的时间码。

我发现 Google Speech API 似乎工作得很好,但http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html下的文档不是最好的,我们还没有找到一种方法来自动触发开始和停止记录事件(它在系统认为输入结束后结束)。即使听起来系统还没有为这种情况做好准备......

我还在这里找到了这篇文章https://stackoverflow.com/questions/2080401/is-there-a-speech-to-text-api-by-google,但似乎只能在 android 系统上使用。

所以基本上我的问题是:是否可以将 Google Speech API 与 flash 或 PHP/JS 之类的东西一起使用(如果是的话,是否有任何好的示例),如果没有,是否有人知道其他一些 API 以及一些好的文档或示例代码将视频中的语音转换为文本?

谢谢,克里斯

0 投票
0 回答
875 浏览

android - 如何将 SpeechRecognizer 的 onBufferReceived() 返回的原始字节保存到编码的 AMR_NB 文件中?

我遇到了这个关于如何捕获 SpeechRecognizer 返回的音频数据的好答案。但是返回的字节是原始的,我想知道是否有办法将这些字节编码为 AMR_NB 文件,以便 MediaPlayer 可以播放。请点亮一些灯。太感谢了。

0 投票
2 回答
186 浏览

cocoa - 可可:演讲和时间

我正在构建一个应用程序,其中一部分会说出时间。但是,当我将日期字符串(如 10/24/11)传递给 NSSpeechSynthesizer 时,它会按字面意思说出它们,如“一,零,斜线二四斜线一一”,与时间戳相同,“八冒号一一”冒号冒号”等。

我查看了 NSSpeechSynthesizer 文档,我想我必须使用 phonemesFromText 方法,但这似乎需要大量繁重的工作才能让应用程序顺利说出时间和日期。有更快的方法吗?

谢谢

0 投票
1 回答
1049 浏览

api - 是否有任何用于文本语音的 API?

我正在为我的项目寻找一个文本语音 API,但我找不到一个好的,因为我正在寻找免费的。

我找到了 iSpeech,它对移动开发人员免费,但如果您是 Web 开发人员,则必须付费。

我尝试了Google Text Speech,但它限制为 100 个字符。

你知道像这样的文本语音API吗?

谢谢。

0 投票
1 回答
523 浏览

android - 安卓应用的语音识别

对于使用什么工具来开发离线外语语音识别有什么建议吗?我目前正在努力研究如何通过在 java 语言中使用 eclipse 创建一个声学模型来训练系统理解马来语。可以使用 PocketSphinx 吗?

0 投票
0 回答
409 浏览

c# - C# system.speech.recognition 替代

我正在使用 system.speech.recognition 从多个单词中识别一个单词。因为精度不是很好,所以我想考虑引擎给我的更多选项。

但是,e.Result.Alternates 只包含一个与 e.Result.word 相同的结果。有没有办法强制引擎给我更多选择?谢谢!

0 投票
2 回答
3381 浏览

html - CSS3 - 语音气泡

我希望创建一个像这样的语音气泡框:

气泡

我想知道如何在td表元素中制作这样的“评论框”。我怎样才能只用 CSS 获得这个?

我有这个 HTML 标记:

0 投票
1 回答
161 浏览

python - Ubuntu & Python:多个文本到语音的基于时间的脚本

想知道是否有人可以提供帮助。

这就是我想要做的:有效地编写一个“脚本”(如在剧院/舞台类型的制作脚本中),它有几个声音/演员,在不同的时间说出不同的文本位。所以会有几个声音同时开始,都在说不同长度的不同事情。

我想做的是使用 Python 在 Linux/Ubuntu 上对此进行编程,我只是想知道是否有人对解决此问题的最佳方法有任何想法?

非常感谢您的任何想法。

干杯