问题标签 [speech-to-text]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1518 浏览

android - 如何在数字 EditText 上启用语音输入?

我想利用 Android 在配置为数字输入的 EditText 控件上接受语音输入的能力。我希望在控件获得焦点时弹出数字键盘。我使用了以下 xml:

这会导致数字和符号键盘按预期显示,但没有语音输入按钮。如果我将键盘切换到字母数字键,则会显示语音输入按钮,但它已被禁用。

如果我删除 android:numeric="decimal" 属性,则会出现常规的 abc 键盘并启用语音,如果我说出“一八十二点六六”之类的数字,它会起作用并在编辑文本框中显示 182.66。

我已经搜索了一些方法来启用“仅十进制”语音输入。我无法在 EditText 或 TextView 上找到与语音输入有关的任何属性。

任何人都可以帮忙吗?我宁愿不使用语音识别意图,如果可以避免的话,我必须自己做所有事情(尽管这将是一个有趣的学习项目!)

0 投票
1 回答
358 浏览

speech-recognition - 从文本中调用 Google 语音操作 - 例如构建我自己的语音操作应用程序

我有一个应用程序,我在谷歌中使用语音识别来获取用户语音输入作为文本。这行得通,没问题 - 我得到了文字。

是否可以将我的 TEXT STRING 发送给与谷歌语音操作相同的逻辑/引擎进行解析,并让 AndroidOS 执行正确的操作?

或者启动一个提示用户执行谷歌语音操作的意图 - spech 将按原样执行(例如听...),但如果与谷歌语音操作给出的不匹配,它将与结果一起广播回我的应用程序作为溢出处理的文本。

0 投票
2 回答
395 浏览

.net - Wav 文件语音转文本

是否有一个库可以在脚本或 .Net 项目中使用,可以将语音转换为文本?

我有一个目录,里面有几十个客户和每个客户下的多个帐户的语音提示。我希望能够在没有人工交互的情况下尽可能多地从其中提取文本。

我玩过 Dragon Dictate ……但它太手动了。我需要能够编写一些脚本。

0 投票
5 回答
7854 浏览

android - 模拟器中的文本语音:未找到处理 Intent 的活动

我想问我如何在我的模拟器上使用语音来文本代码。我的代码适用于真实设备,但不适用于模拟器。错误说:

我能做些什么?

0 投票
0 回答
937 浏览

android - 语音识别,android中的未知错误问题

我正在尝试在 android 中使用语音进行浏览器控制应用程序。我正在使用RecognizerIntent.ACTION_RECOGNIZE_SPEECH意图识别语音。它通常可以工作,但有时当语音识别弹出窗口打开并带有“未知问题”并且我的 WebView 不加载我的 URL 时,会保留旧 URL。

这是我的代码:

感谢您的任何想法。此致。

0 投票
2 回答
2151 浏览

speech-recognition - 使用 CMU Shinx、JSAPI 和 Google Speech API 进行语音识别

语音识别是我当前项目的众多功能之一,最有可能在 J2EE 中开发(如果选择合理,也欢迎其他语言)。

googleSO上的大多数链接都建议上述三个选项,Sphinx 4、JSAPI 直接和 Google Speech API(对 google 进行服务器调用,而不是以文本形式获取结果)。

我还有哪些其他免费可用的选项?如果我使用 Sphinx-4,如何获得通用英语的语言模型?

0 投票
1 回答
27557 浏览

java - 如何使用 CMU Sphinx 4 使用英语 voxforge 模型进行语音到文本

我试图弄清楚如何将 sphinx4 或 pocketsphinx 与英语 voxforge 模型一起使用,但我无法让它工作。我曾尝试阅读文档页面(例如这个http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html),但它对我没有帮助。

我想要的是一个可执行文件,我可以在其中指定要使用的模型以及要用作源的音频文件,并让可执行文件打印出来,这是对录音中声音的最佳猜测。

我有一些运气:pocketsphinx_continuous -infile recording.wav 2> /dev/null

但它在完整的音频文件被转录之前就中止了,并且默认模型只有很少的单词才能从音频中创建可读的文本。

我已经编译并测试了 sphinx4 源代码包中的演示,但所有示例似乎都只有几句话,需要一个模型 loke voxforge 对我有用。

我该如何设置?

0 投票
1 回答
1260 浏览

python - 将来自 Dragon NaturallySpeaking 的所有输入重定向到 Python?(使用 Natlink)

我目前正在编写一个 AI 程序,它接收来自 Dragon NaturallySpeaking(使用 Natlink)的输入,对其进行处理,然后返回语音输出。我能够想出一个接收器语法库,它捕获来自 Dragon 的所有输入并将其发送到我的解析器。

此代码按预期工作,但有几个问题:

  1. Dragon 在将输入发送到我的程序之前对其进行处理。例如,如果我说“打开 Google Chrome。”,它会打开 Google Chrome,然后将输入发送到 Python。有没有办法在不先处理输入的情况下将输入发送到 Python?

  2. 当我调用 waitForSpeech() 时,会弹出一个消息框,说明 Python 解释器正在等待输入。是否有可能(为了美观和方便)阻止消息框出现,而是在用户显着暂停后终止语音收集过程?

谢谢!

0 投票
1 回答
4676 浏览

android - 在 Android 4.0 中访问连续语音识别

我正在尝试让连续的语音输入在我的 Android 应用程序中工作。我尝试使用内置的SpeechRecognizerIntent,但它会等待用户完成讲话,然后再处理单词。这对我来说还不够。我需要设备在用户仍在讲话时处理单词。

我读到现在冰淇淋三明治支持这一点。但是,我没有找到任何允许我访问此功能的 API。有谁知道现在这是如何工作的?

谢谢你的帮助!

0 投票
1 回答
4642 浏览

android - Android:语音转文本和语音识别离线

我被困在我的一个离线 Android 应用程序中,我需要离线语音识别和语音转文本 API。

如果有人从事离线语音到文本和语音识别的工作,请分享您的观点和意见。