问题标签 [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 如何在数字 EditText 上启用语音输入?
我想利用 Android 在配置为数字输入的 EditText 控件上接受语音输入的能力。我希望在控件获得焦点时弹出数字键盘。我使用了以下 xml:
这会导致数字和符号键盘按预期显示,但没有语音输入按钮。如果我将键盘切换到字母数字键,则会显示语音输入按钮,但它已被禁用。
如果我删除 android:numeric="decimal" 属性,则会出现常规的 abc 键盘并启用语音,如果我说出“一八十二点六六”之类的数字,它会起作用并在编辑文本框中显示 182.66。
我已经搜索了一些方法来启用“仅十进制”语音输入。我无法在 EditText 或 TextView 上找到与语音输入有关的任何属性。
任何人都可以帮忙吗?我宁愿不使用语音识别意图,如果可以避免的话,我必须自己做所有事情(尽管这将是一个有趣的学习项目!)
speech-recognition - 从文本中调用 Google 语音操作 - 例如构建我自己的语音操作应用程序
我有一个应用程序,我在谷歌中使用语音识别来获取用户语音输入作为文本。这行得通,没问题 - 我得到了文字。
是否可以将我的 TEXT STRING 发送给与谷歌语音操作相同的逻辑/引擎进行解析,并让 AndroidOS 执行正确的操作?
或者启动一个提示用户执行谷歌语音操作的意图 - spech 将按原样执行(例如听...),但如果与谷歌语音操作给出的不匹配,它将与结果一起广播回我的应用程序作为溢出处理的文本。
.net - Wav 文件语音转文本
是否有一个库可以在脚本或 .Net 项目中使用,可以将语音转换为文本?
我有一个目录,里面有几十个客户和每个客户下的多个帐户的语音提示。我希望能够在没有人工交互的情况下尽可能多地从其中提取文本。
我玩过 Dragon Dictate ……但它太手动了。我需要能够编写一些脚本。
android - 模拟器中的文本语音:未找到处理 Intent 的活动
我想问我如何在我的模拟器上使用语音来文本代码。我的代码适用于真实设备,但不适用于模拟器。错误说:
我能做些什么?
android - 语音识别,android中的未知错误问题
我正在尝试在 android 中使用语音进行浏览器控制应用程序。我正在使用RecognizerIntent.ACTION_RECOGNIZE_SPEECH
意图识别语音。它通常可以工作,但有时当语音识别弹出窗口打开并带有“未知问题”并且我的 WebView 不加载我的 URL 时,会保留旧 URL。
这是我的代码:
感谢您的任何想法。此致。
java - 如何使用 CMU Sphinx 4 使用英语 voxforge 模型进行语音到文本
我试图弄清楚如何将 sphinx4 或 pocketsphinx 与英语 voxforge 模型一起使用,但我无法让它工作。我曾尝试阅读文档页面(例如这个http://cmusphinx.sourceforge.net/sphinx4/doc/UsingSphinxTrainModels.html),但它对我没有帮助。
我想要的是一个可执行文件,我可以在其中指定要使用的模型以及要用作源的音频文件,并让可执行文件打印出来,这是对录音中声音的最佳猜测。
我有一些运气:pocketsphinx_continuous -infile recording.wav 2> /dev/null
但它在完整的音频文件被转录之前就中止了,并且默认模型只有很少的单词才能从音频中创建可读的文本。
我已经编译并测试了 sphinx4 源代码包中的演示,但所有示例似乎都只有几句话,需要一个模型 loke voxforge 对我有用。
我该如何设置?
python - 将来自 Dragon NaturallySpeaking 的所有输入重定向到 Python?(使用 Natlink)
我目前正在编写一个 AI 程序,它接收来自 Dragon NaturallySpeaking(使用 Natlink)的输入,对其进行处理,然后返回语音输出。我能够想出一个接收器语法库,它捕获来自 Dragon 的所有输入并将其发送到我的解析器。
此代码按预期工作,但有几个问题:
Dragon 在将输入发送到我的程序之前对其进行处理。例如,如果我说“打开 Google Chrome。”,它会打开 Google Chrome,然后将输入发送到 Python。有没有办法在不先处理输入的情况下将输入发送到 Python?
当我调用 waitForSpeech() 时,会弹出一个消息框,说明 Python 解释器正在等待输入。是否有可能(为了美观和方便)阻止消息框出现,而是在用户显着暂停后终止语音收集过程?
谢谢!
android - 在 Android 4.0 中访问连续语音识别
我正在尝试让连续的语音输入在我的 Android 应用程序中工作。我尝试使用内置的SpeechRecognizer
Intent,但它会等待用户完成讲话,然后再处理单词。这对我来说还不够。我需要设备在用户仍在讲话时处理单词。
我读到现在冰淇淋三明治支持这一点。但是,我没有找到任何允许我访问此功能的 API。有谁知道现在这是如何工作的?
谢谢你的帮助!
android - Android:语音转文本和语音识别离线
我被困在我的一个离线 Android 应用程序中,我需要离线语音识别和语音转文本 API。
如果有人从事离线语音到文本和语音识别的工作,请分享您的观点和意见。