问题标签 [speech-to-text]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
permissions - 在 Wav 文件上运行 Julius 语音识别时权限无效
如何使用Julius将包含口语单词的 Wav 文件转换为包含这些单词的文本文件?我已经阅读了Julius 书,并且在 Voxforge 上下载了Julius 快速入门版本。从文档中,我想我想在另一个文件中列出我想要处理的 Wav 文件,并通过filelist 参数将该文件的文件名传递给 Julius。
例如,我在 /home/myuser/test 中有julius
可执行文件和其他快速入门文件(语法文件、conf 等),我在 /home/myuser/test/audio 中有我所有的 Wav 文件。julius
归我的用户所有,具有执行权限,所有音频文件都有 777 权限。我在 /home/myuser/test/audio/filelist.txt 有我的文件列表,其中的行如下:
但是,当我运行时:
我得到错误:
我无法理解为什么它无法访问该文件。它归我的用户所有,以我的用户身份运行,并读取我的用户拥有的文件。
为什么朱利叶斯给我这个错误?
java - 用于在音频文件中转录语音的开源软件
任何人都可以推荐可靠的开源软件来在 wav 文件中转录英语语音吗?我研究过的两个主要程序是Sphinx和Julius,但我从来没有能够让任何一个工作,而且每个关于转录文件的文档充其量是粗略的。
我正在 64 位 Ubuntu 10.04 上开发,其存储库包括 sphinx2 和 julius,以及 voxforge 的 julius 英语声学模式。我专注于转录文件,而不是直接处理来自麦克风的声音,因为我已经放弃了期望像这样的项目与 Ubuntu 的音响系统一起工作。这不是对 Ubuntu 的打击,因为我可以使用 Audacity 完美地用我的麦克风录制声音,但是这两个系统似乎都无法访问我的麦克风,所以我希望我可以通过从文件中读取来简单地配置它们。
我首先尝试了来自 Ubuntu 软件包 sphinx2-bin 的 Sphinx2。尽管示例 sphinx2-demo 似乎可以用于转录文件,但实际上没有关于配置的文档,所以我不确定如何自定义它以从任意 wav 读取。演示中使用的音频文件是一些未记录的“16k”格式,通过2个配置文件间接引用。有一个简短的说明,将 sphinx2-demo 描述为运行 sphinx2-batch,但检查脚本表明它实际上是在调用 sphinx2-continuous。更糟糕的是,每个脚本的 --help 文档列出了大约 6 打选项,并且没有提及哪些是必需的或可选的。总的来说,sphinx 文档的缺乏以及现有文档的质量差让我抓狂。
接下来我尝试了 Julius,再次来自 Ubuntu 软件包,考虑到 Voxforge 的快速入门中使用的版本是 3.5,它是令人惊讶的最新版本(4.1)。该软件包似乎包含更好的文档,甚至还有一个用 Python 编写的示例 (/usr/share/doc/julius-voxforge/examples/controlapp)。在阅读了示例的文档后,我尝试通过创建一个filelist.txt
包含文本“hello.wav”的文件来调整它以从文件中读取,该文件引用了一个同名文件,其中包含有人说“hello”的录音。将它们放在同一个目录中,我运行:
得到回应:
通过为 filelist.txt 和 hello.wav 指定绝对文件名重试会产生相同的错误。
我还尝试了示例中使用的 Julius 调用,直接从麦克风录制:
我多次调用它,响应因错误而异:
和:
在后一种情况下,无论我对着麦克风说什么,都没有任何反应。我不知道它是否仍然无法读取麦克风,或者它是否正在读取某些内容,但根本无法转录音频。
我不知道该怎么做。我遇到的错误并没有给我留下太多的余地。为什么不能读wav?为什么它不能读取 /dev/dsp?为什么它看起来能够读取 /dev/dsp,但没有任何反应?
有没有其他人在开源语音识别器方面取得任何成功,尤其是在 Linux 上?
api - 语音转文本 API(非移动)
我正在尝试编写一个程序,该程序通过麦克风从用户那里接收音频,然后将所说的内容转换为文本以进行进一步操作。
我知道 google 有这样的东西,但它是为 Android 开发人员准备的,我正在尝试制作更像 chrome 扩展的东西(chrome 扩展是我所设想的,但我对替代方案持开放态度)。
我查看了 Mac OSX NSSpeechRecognizer,但我需要更全面的东西,因为这需要您提前指定有限的语法。
我无法期待或预测我的用户会对麦克风说什么(但我可以假设它会是英语)。
speech-recognition - 有人在生产中使用 Google Speech API 吗?
我找到了一些描述如何使用 Google 语音 API 的文章 ( http://mikepultz.com/2011/03/accessing-google-speech-api-chrome-11/ )。
然而,这可靠吗?有人在生产中使用它吗?
谢谢
c# - 发音评分(语音正确性)
是否有任何 C# 算法或库可用于对用户发音进行评分?
例如,文本的 Levenshtein 距离,但语音的距离。
任何有关算法的相关链接或信息都会很有用。我正在编写一个需要语音识别之类的应用程序,所以如果有相关的 C# 库会很棒。
当然,如果图书馆可以对文本进行语音转换,那也很棒,最好是多种语言。
c# - 使用 SAPI 将命令与正常语音区分开来
我正在做一个涉及我公寓里的麦克风的个人项目,我可以向它发出口头命令。为此,我一直在使用 Microsoft Speech API,特别是 C# 中 System.Speech.Recognition 中的 RecognitionEngine。我构造一个语法如下:
当我实际给它一个命令时,这似乎工作得很好。它还没有误认我的命令之一。不幸的是,它也倾向于将随机谈话作为命令!我试图通过在命令选项对象前面加上一个“名称”(recognitionSystemName)来改善这一点,我将系统称为。奇怪的是,这似乎没有帮助。我将它限制为一组预定的命令短语,所以我认为它能够检测到语音是否不是任何字符串。我最好的猜测是它假设所有声音都是命令并从命令集中选择最佳匹配。任何有关改进此系统以使其不再触发非针对它的对话的建议都会非常有帮助。
编辑:我已将名称识别器移至单独的 SpeechRecognitionEngine,但准确性很差。这是我为检查准确性而编写的一些测试代码:
如果名称是“Octavian”,它会识别“Octopus”、“Octagon”、“Volkswagen”和“哇,真的吗?”之类的东西。我可以清楚地听到相关音频剪辑的差异。任何使这不可怕的想法都会很棒。
html - 网页文本框中的语音到文本按钮
是否可以在网页的文本框中有一个有效的谷歌语音到文本按钮?
如何做呢?
html - 如何使语音 webkit 在 Chrome 扩展弹出窗口中工作?
像这样的简单代码
在 HTML 页面中正常工作。
我正在尝试在我的 Google Chrome 扩展程序的弹出窗口中使用相同的代码。但是在单击麦克风图标时,弹出窗口中没有任何反应。
将这样的代码用于弹出窗口是否有一些限制?还是我错过了其他东西?
api - 是否有任何用于文本语音的 API?
我正在为我的项目寻找一个文本语音 API,但我找不到一个好的,因为我正在寻找免费的。
我找到了 iSpeech,它对移动开发人员免费,但如果您是 Web 开发人员,则必须付费。
我尝试了Google Text Speech,但它限制为 100 个字符。
你知道像这样的文本语音API吗?
谢谢。
c# - C# system.speech.recognition 替代
我正在使用 system.speech.recognition 从多个单词中识别一个单词。因为精度不是很好,所以我想考虑引擎给我的更多选项。
但是,e.Result.Alternates 只包含一个与 e.Result.word 相同的结果。有没有办法强制引擎给我更多选择?谢谢!