问题标签 [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 语音中的情绪检测
我想构建一个应用程序来分析麦克风语音的情感内容。
尽管有时用作额外功能,但这并不涉及语音识别。情绪分析基于声音的韵律特征(音高变化、速度等、音调)。
我知道这可以在台式计算机上完成,但我不希望用户必须将他们的录音(电话对话)上传到服务器才能获得情感反馈。
我需要的是一个提供整个分析的 API,或者一个我可以用来提取这些特征的 API(即对话的平均速度)。
外面有这样的东西吗?
提前致谢!
google-chrome - 在 Chrome 中自动录制语音输入
我正在尝试自动录制 Google语音输入中的语音(仅适用于 Chrome)。
事实上,用户必须单击麦克风才能开始录制,但我正在安装一个用户不会与计算机交互的安装。因此,我必须以其他方式触发录制。
就您似乎无法通过代码访问语音输入功能而言,即您无法调用函数来开始录制。所以现在我正在研究模拟鼠标点击麦克风。
我尝试过使用 javaScript,但似乎只有事件和事件处理程序受到影响(例如,对输入字段的模拟点击会触发其点击处理程序,但不会将焦点放在该字段上。)
所以现在我正在研究模拟 Windows 系统的鼠标点击,我发现了一些可以做到这一点的程序(主要是在间隔上)并且它可以工作,录制开始。但问题是我必须从浏览器应用程序中激活点击模拟。
到目前为止,最好的选择是AutoHotkey,它使您能够创建自定义脚本,在我的例子中是模拟鼠标在给定位置单击的脚本。所以,如果我可以从浏览器执行这个脚本,我会很安全,但我不知道该怎么做。
欢迎任何想法和/或想法!
flash - 如何使用带有 Flash 或类似功能的 Google Speech API?!或者是否有另一个很好的语音(从视频)到文本的 API?
我们正在寻找一个 api 来获得语音到文本。在我们的例子中,我们想要将音频挖掘添加到视频文件中,这意味着我们想要自动为视频生成标签词,并让用户有机会直接跳转到说出标签词的时间码。
我发现 Google Speech API 似乎工作得很好,但http://lists.w3.org/Archives/Public/public-xg-htmlspeech/2011Feb/att-0020/api-draft.html下的文档不是最好的,我们还没有找到一种方法来自动触发开始和停止记录事件(它在系统认为输入结束后结束)。即使听起来系统还没有为这种情况做好准备......
我还在这里找到了这篇文章https://stackoverflow.com/questions/2080401/is-there-a-speech-to-text-api-by-google,但似乎只能在 android 系统上使用。
所以基本上我的问题是:是否可以将 Google Speech API 与 flash 或 PHP/JS 之类的东西一起使用(如果是的话,是否有任何好的示例),如果没有,是否有人知道其他一些 API 以及一些好的文档或示例代码将视频中的语音转换为文本?
谢谢,克里斯
android - 如何将 SpeechRecognizer 的 onBufferReceived() 返回的原始字节保存到编码的 AMR_NB 文件中?
我遇到了这个关于如何捕获 SpeechRecognizer 返回的音频数据的好答案。但是返回的字节是原始的,我想知道是否有办法将这些字节编码为 AMR_NB 文件,以便 MediaPlayer 可以播放。请点亮一些灯。太感谢了。
cocoa - 可可:演讲和时间
我正在构建一个应用程序,其中一部分会说出时间。但是,当我将日期字符串(如 10/24/11)传递给 NSSpeechSynthesizer 时,它会按字面意思说出它们,如“一,零,斜线二四斜线一一”,与时间戳相同,“八冒号一一”冒号冒号”等。
我查看了 NSSpeechSynthesizer 文档,我想我必须使用 phonemesFromText 方法,但这似乎需要大量繁重的工作才能让应用程序顺利说出时间和日期。有更快的方法吗?
谢谢
api - 是否有任何用于文本语音的 API?
我正在为我的项目寻找一个文本语音 API,但我找不到一个好的,因为我正在寻找免费的。
我找到了 iSpeech,它对移动开发人员免费,但如果您是 Web 开发人员,则必须付费。
我尝试了Google Text Speech,但它限制为 100 个字符。
你知道像这样的文本语音API吗?
谢谢。
android - 安卓应用的语音识别
对于使用什么工具来开发离线外语语音识别有什么建议吗?我目前正在努力研究如何通过在 java 语言中使用 eclipse 创建一个声学模型来训练系统理解马来语。可以使用 PocketSphinx 吗?
c# - C# system.speech.recognition 替代
我正在使用 system.speech.recognition 从多个单词中识别一个单词。因为精度不是很好,所以我想考虑引擎给我的更多选项。
但是,e.Result.Alternates 只包含一个与 e.Result.word 相同的结果。有没有办法强制引擎给我更多选择?谢谢!
python - Ubuntu & Python:多个文本到语音的基于时间的脚本
想知道是否有人可以提供帮助。
这就是我想要做的:有效地编写一个“脚本”(如在剧院/舞台类型的制作脚本中),它有几个声音/演员,在不同的时间说出不同的文本位。所以会有几个声音同时开始,都在说不同长度的不同事情。
我想做的是使用 Python 在 Linux/Ubuntu 上对此进行编程,我只是想知道是否有人对解决此问题的最佳方法有任何想法?
非常感谢您的任何想法。
干杯