问题标签 [dictation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ios - UITextField 开始听写
我想以编程方式将我的 UITextField 输入置于听写模式,而不需要用户从键盘上调出并选择听写。搜索了 API 文档,但没有找到解决方案。有任何想法吗?
click - 龙听写鼠标点击
我使用了一个名为 Dragon Dictation 的语音转文本程序。我可以用它来点击鼠标,但我不得不说“鼠标点击”或“鼠标三击”这个词,一段时间后会变得很烦人,我只想说点击或三击。
该程序允许 AppleScript 代码自定义我们的命令,但我不知道如何点击鼠标?
android - 我可以在其他平台上使用 Android/Google 语音识别软件吗?
我最近刚买了一部安卓手机……很棒的东西。开始研究操作系统的胆量以及如何对事物进行编程。
用于听写的语音识别也很好......鉴于这是一个开源操作系统,有没有办法利用 Android-Google 语音识别?我目前的理解是语音痕迹必须发送到谷歌服务器进行处理,即软件不在机器上。但我可能错了!
无论哪种方式,是否有人知道这种利用自己的应用程序(例如,在 Android 或全尺寸“电脑上的另一个操作系统”上)是否可行?
core-audio - 在 Mavericks 中听写处于活动状态时播放音频
在 Mavericks 中,Apple 引入了“增强听写”——一种在本地离线模式下将语音转录为文本的能力。不幸的是,他们还引入了另一个功能——当听写处于活动状态时,所有声音都被静音。稍微挖掘了一下,发现“静音”的声音仍在播放。例如,Audio Hijack 捕获应该播放的声音并将其保存到文件中。我正在制作一个需要在听写过程中输出声音的应用程序(我假设用户戴着耳机)。看起来他们并没有改变音量设置:在耳机设备上查询主音量级别表明它在听写之前和期间是相同的。菜单栏中的音量指示器也不会改变。就系统的其余部分而言,声音正在播放。
我是 CoreAudio 菜鸟。我可以做一些基本的录音和回放,但不多。是否有可能恢复“静音”的声音?CoreAudio 中是否有开关、标志和功能可以使我的应用程序中的声音在听写处于活动状态时到达耳机?
jquery - 用于 Apple 听写/语音转文本的 jQuery 事件监听器
Apple 听写是否有某种 jQuery 监听器?当用户在文本框上使用 Apple 听写时如何获得警报?我无法尝试不同的语音转文本应用程序,但我猜问题和解决方案对于所有这些应用程序都是相同的。
我的问题:我正在使用带有搜索框的 Google Maps API 来查找城市。一切正常,但通过说话输入文本时,不会提出任何建议,因此用户无法查找城市。我认为最好的解决方案是检查某人何时使用语音转文本应用程序输入文本,然后照常进行,例如
#address
是文本框
macos - 将 Mac OSX 听写与语音 API 结合使用
在 OSX Mavericks 中,现在包括语音听写,非常有用。我正在尝试使用听写功能来创建自己的数字生活助手,但我找不到如何使用识别功能在应用程序而不是文本框中获取语音。
我已经研究过 NSSpeechRecognizer,但这似乎是针对使用预定义语法而不是听写来编写可朗读命令的。我使用什么编程语言并不重要,但 Python 或 Java 会很好......
谢谢你的帮助!
c# - Windows Phone 8 语音识别结果总是只能得到一个替代结果?
我有一个使用语音识别的 Windows Phone 8 应用程序。无论我尝试什么,我总是得到一个替代猜测,它是主要结果文本的副本,尽管要求 10 个替代项:
我正在使用默认的听写上下文(即 - 我没有使用/加载任何上下文无关语法),并且我一直在尝试我说不清楚的长短语,通常是从语音识别引擎获取替代词的可靠方法. 但是,仍然没有真正的替代猜测。
我在 Alternates 上找到了这个 SO 帖子:
在那篇文章中,作者将拒绝猜测的置信度阈值设置为 0,这样就不会拒绝任何内容。但是,WP8 SpeechRecognizer 类的 Settings 属性中没有类似的字段。
为什么我只得到一个根本不是替代品的替代品,我怎样才能获得一组真正的替代品?
grammar - Microsoft 语音识别 - 数字 + 导航
我正在编写一个数据输入程序,该程序主要通过语法 XML 文件使用 C&C,但在某些情况下我需要听写。当我处于 C&C 模式时,除了值列表之外,我还包括导航命令(如 GO UP、GO DOWN 等),识别后执行正确的操作。那里一切都很好。
但是在听写模式下,识别这些“命令”的成功率要低得多(因为没有有限的单词列表)。
问题:
- 我需要使用听写,因为我想输入数字。有没有办法创建一个仅将单词列表限制为数字的 C&C 语法文件?
- 如果有这样的解决方案,我仍然需要包含我的导航词/命令。
- 如果没有这样的解决方案,有没有办法强制听写为引擎听到的某些“单词”分配更高的概率?
ios - UITextField 的听写结果与 UITextView 不同
我似乎找不到任何有关 iOS 中文本输入的语音转文本选项的文档。我知道你可以用一些 AV 的东西手动完成,但是当 Siri 启用时你得到的开箱即用的听写有一些怪癖。
尝试这个。使用搜索栏打开您拥有的任何 iOS 应用程序。这将是我们的 UITextField 实验。更好的是,打开 Mail.app。你不能卸载它,所以我知道你有它。
说“123 Elm St. comma Fargo comma ND” 我得到的是:123 Elm St. comma Fargo comma Indy”
和我说的差不多。没什么大不了的。那是一个文本字段/搜索栏。让我们在 UITextView 中尝试一下。
打开一封新电子邮件,然后转到电子邮件正文。让我们说同样的话。
说“123 Elm St. comma Fargo comma ND” 我得到的是:123 Elm St., Fargo, ND”
这看起来更好!所以我想知道的是,为什么 UITextView 对标点符号和其他命令的识别比文本字段更好。这不仅限于逗号,它涵盖了整个范围。
有没有办法指定我想要口述的文本类型?有没有办法改变它,所以我在文本字段中得到这个标点符号识别?或者有人可以向我指出一些文档,这些文档说这就是它们不同的原因,我完全搞砸了。无论哪种方式,一些答案都会有所帮助。提前致谢。
更新 我已经对 UITextField 进行了子类化,并检查了可能随听写返回的替代短语,但没有。我得到的只是原始转换。
python - 在 Python 中使用 Mac 的听写
有人对如何使用 Mac 的内置听写工具创建 Python 使用的字符串有任何想法吗?
要启动听写,您必须在任何文本编辑器中双击 Fn 键。如果是这种情况,有没有办法将击键命令与输入命令结合起来?就像是:
第 1 步:模拟击键双击 Fn 键,启动听写工具,然后第 2 步。使用语音转文本内容作为输入函数的一部分创建变量,即 text_string = input(“Start听写:“)
在这个线程中(我可以在没有 GUI 的情况下使用 OS X 10.8 的语音识别/听写吗?),一位用户建议他使用 CGEventCreateKeyboardEvent(src, 0x3F, true) 解决了这个问题,但没有代码。
有任何想法吗?代码示例将不胜感激。
更新:感谢以下建议,我已导入 AppScript。我正在尝试代码按照这些思路工作,但没有成功:
关于如何打开听写工具以输入字符串的任何想法?
更新 2:
这是我正在尝试创建的程序的一个简单示例:
我试图将命令传递给程序,而无需在键盘上打字。