问题标签 [speech-to-text]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3416 浏览

c# - 尝试在 C# 中使用 Google Speech2Text

以下简单代码尝试将波形文件发布到 Google Speech2Text 服务,但总是失败,出现“网关超时 (504)”或一般异常“操作超时”。有人可以帮忙吗?

非常感谢。

舒贾特

0 投票
3 回答
7092 浏览

java - 如何设置语音识别服务器?

如何在服务器端实现语音识别(请不要建议HTML5's x-webkit-speech,javascript等)?该程序将音频文件作为输入,并以足够的准确性提供音频文件的文本转录。我可以使用哪些选项?

我曾尝试使用 Voxforge 模型实现 Sphin4,但准确性太差(它们可能也是我的配置中的一些问题,我仍在尝试学习它)。在一篇文章中,我读到当我们使用<input name="speech" id="speech" type="text" x-webkit-speech />输入时,输入被发送到外部服务器,该服务器进行识别并将数据发送回浏览器。

如何设置该服务器?如果任何现有的开源服务器能够以最小的错误率识别英语句子,它也会很有用。

0 投票
2 回答
8160 浏览

android - CMU Sphinx 可以设置为识别约 200 个单词吗

我有一个客户需要一个可以识别语音命令的 Android 应用程序。据我了解,内置的语音到文本功能实际上将数据发送到谷歌的服务器,然后再发回文本翻译。这是一个主要问题,因为语音数据非常敏感(除非数据在发送到 Google 或从 Google 发送时已加密 - 但我怀疑它是否已加密)。

我能想到2个选项。首先是在 Android 上将语音转换为文本,尽管这似乎是一项极其昂贵的操作。第二种可能性是让本地服务器为我转换数据(我可以在发送和接收语音数据时加密语音数据和翻译)。这是 CMU Sphinx 可以实现的吗?值得注意的是,我还可以访问 Asterisk 服务器,这可能有助于解决这个问题(我不知道)。

实际上,应该只有大约 200 个单词需要被识别。我更喜欢开源/免费软件解决方案,但我也对商业解决方案(可能是 FlexT9)持开放态度。理想情况下,我可以将音频流发送到某个地方,取回作为文本的字符串,然后我可以解析该字符串并使用该字符串执行其他操作。

我过去没有做过太多的 android 或任何语音识别开发,所以我希望有人至少可以为我指明正确的方向。谢谢!

0 投票
2 回答
3440 浏览

iphone - 多种语言的语音到文本

我已经成功地完全实现了 ispeech API,请参阅http://www.ispeech.org/developers我的应用程序将语音转换为文本(请参阅 sdk 中的演示应用程序http://www.ispeech.org/instructions/sampleprojects/ iphone/IntegrationGuide.html )。但不幸的是,它把我们所说的只用英语翻译成文本。

我需要的。

有一个“说话”按钮可以听取用户所说的内容并将其转换为文本(适用于英语)。还有另一个按钮,允许用户选择此应用程序屏幕截图中所见的语言(http://screencast.com/t/7vBFH565qD)。因此,当用户以所选语言说话时,它应该被转换为相同的语言。在我的情况下,无论我们说什么,它都只需要用英语输入..

谢谢大家。。

0 投票
1 回答
2088 浏览

python - 使用 tasker/sl4a/python 通过说话发送文本

tasker说话时用来发送文本。但是,我的.py文件似乎没有像我想的那样将我的演讲保存到剪贴板。您可以看到我首先将剪贴板保存为变量,以便稍后将其重置,以防万一它很重要。

这是我到目前为止...

  1. 变量集(名称:%SAVECLIP 到:%CLIP)如果(%CLIP 已设置)
  2. 设置剪贴板(文本:不重要。)
  3. 运行脚本(名称:SpeechToClip.py)
  4. 等到(MS:秒:2 分钟:0 小时:0 天:0)
  5. 发送短信(号码:一个号码文字:%CLIP)
  6. 设置剪贴板(文本:%SAVECLIP 添加:关闭)如果(设置了%SAVECLIP)
  7. 变量清除(名称:%SAVECLIP)

我的.py文件是在记事本中创建的,然后复制到我的sl4a/scripts文件夹中。这是我的 .py 文件包含的内容...

我认为这个.py文件是发生错误的地方,因为我的剪贴板仍然“不重要”。收到的短信也说“不重要”。而不是我所说的。

任何帮助/建议将不胜感激。

0 投票
2 回答
3786 浏览

c# - Microsoft Speech Platform 11(服务器)上的 AppendDictation?

我对 C# 和 Microsoft Speech 平台都比较陌生,但我正在开发一个需要转录免费听写的服务器应用程序。MS Speech Platform SDK 看起来很完美,并且可以在服务器上运行,除非我在 GrammarBuilder 中引用 AppendDictation() 方法。

我正在使用 Microsoft Speech Platform SDK 11,如果我定义语法,应用程序可以正常工作,但是当我添加 AppendDictation() 时,我遇到了这个错误:

即使是文档中的这个示例似乎也失败了:

奇怪的是,如果我将 LoadGrammar 更改为 LoadGrammarAsync,则会加载语法(或至少调用事件处理程序),但是识别器会因以下错误而失败:

我读过该平台的服务器版本不支持听写,但它会附带一个不起作用的方法似乎很奇怪。有没有人设法让听写语法在服务器上工作?我究竟做错了什么?

非常感谢

0 投票
3 回答
9016 浏览

powershell - Powershell会说话,但我说话能写吗?

下面是让powershell说话的方法。

其实我想做相反的事情。如果我说话,powershell可以将其转换为字母。

如果我在录音机中说“嘿,我会说话”,它会转换成文字吗?

如果可能,请指导我如何实现它?

0 投票
1 回答
3037 浏览

python - Python语音比较

我有两个 .wav 文件需要比较并确定它们是否包含相同的单词(顺序也相同)。

我一直在寻找最好的方法。我不知道如何让 pyspeech 使用文件作为输入。我试过让 CMU sphinx 项目工作,但我似乎无法让 GStreamer 与 Python 27 一起工作,更不用说他们的项目了。我也搞砸了 DragonFly 也没有运气。

我正在使用带有 Python27 的 Win7 64 位。有没有人有任何想法?

任何帮助是极大的赞赏。

0 投票
3 回答
4910 浏览

android - Android上语音中的关键字发现?

我需要使用语音输入来插入文本。我说话时如何检测关键字?

我可以使用 Android 语音输入执行此操作还是需要外部库?有任何想法吗 ?

谢谢

0 投票
2 回答
196 浏览

speech-recognition - 我正在尝试改进 Scintilla 以通过语音识别 java。有谁知道这对 Scintilla 是否可行?

我查了很多,但没有发现任何有用的东西。还有任何 API 支持可以做到这一点吗?任何链接和想法将不胜感激。