问题标签 [speech-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
3919 浏览

language-agnostic - 如何开始使用语音转文本?

我对语音到文本算法非常感兴趣,但我不确定从哪里开始研究它们。一堆搜索让我找到了这个,但它是从 1996 年开始的,我相当肯定从那时起已经有了改进。

有没有对这类东西有任何经验的人有任何阅读/源代码检查的建议?如果我想进入编写语音识别程序的世界,或者只是关于我应该尝试了解的内容的一般建议(如果您对该领域没有太多了解,有时很难知道要搜索什么)。

编辑:我想做一些跨平台的事情,但目前我的目标是 linux。

编辑 2:感谢 csmba 的深思熟虑的答复。目前,我主要对能够创建允许自动化或通过语音执行不同命令的应用程序感兴趣。因此,可以将有限数量的可识别命令串在一起。一个例子是一个音乐播放器,它接受诸如“Play the album Hello Everything by Squarepusher”之类的命令,或者一个允许用户创建语音快捷方式来启动特定应用程序的应用程序启动器。

我意识到这是一个非常大的问题,而且我现在的知识水平远不及解决实现整个识别引擎所需的知识水平,尽管这样做所涉及的技术让我着迷,这是我想做的事情自己来做。很有可能,我最终可能会拿起一两本关于该主题的书,并在空闲时间学习/玩“简单”的实现。

0 投票
1 回答
13000 浏览

search - 如何在音频文件/流中搜索内容?

我一直想知道存在多少不同的搜索技术,用于搜索文本、搜索图像甚至是视频。

但是,我从未遇到过在音频文件中搜索内容的解决方案。

例如:假设我有大约 200 个播客以 mp3、wav 和 ogg 文件的形式下载到我的 PC 上。它们都被统称为 podcast1.mp3、podcast2.mp3 等。因此,如果不实际听到它们,就不可能知道内容是什么。可以这么说,我有兴趣找出播客谈论“游戏编程”的内容。我希望结果显示为:

  • Podcast1.mp3 - 时间索引处的 3 个结果 - 0:16:21、0:43:45、1:12:31
  • Podcast21.ogg - 时间索引处的 1 个结果 - 0:12:01

所以我的问题:

  • 如何解决这个问题?
  • 是否有合适的算法来做这样的事情?

我脑海中浮现的一个想法是,可以使用“语音到文本”软件来获取每个音频文件的成绩单以及时间索引,然后解析成绩单以获得输出。

我认为这是我的爱好项目之一。谢谢!

0 投票
2 回答
4190 浏览

speech-recognition - 有人有Sphinx语音识别的经验吗?

有没有人使用Sphinx语音识别堆栈来构建 IVR 应用程序?我正在寻找开源替代品来替代来自 MSFT 和其他公司的昂贵且有些限制的选择。我还没有找到一个将开源语音/voip 应用程序联系在一起的综合包。

0 投票
5 回答
6921 浏览

speech-recognition - 什么是好的开源 VoiceXML 实现?

我试图找出是否可以通过将开源项目的部分拼凑在一起来构建完整的 IVR 应用程序。是否有人使用非商业的 VoiceXML 实现来构建支持语音的系统?

0 投票
6 回答
5586 浏览

windows-vista - 多种语言的 Vista 语音识别

我的主要语言是西班牙语,但我使用的所有软件都是英语,包括 Windows;但是我想在西班牙语中使用语音识别。

你知道是否有一种方法可以在主要操作系统语言之外的其他语言中使用 vista 的语音识别?

0 投票
2 回答
804 浏览

speech-recognition - 搜索文件的语音识别

这是我遇到的问题:

我有很多(数万个)我的用户希望能够搜索的 mp3 文件。是否有您使用过或听说过的好软件可以让我索引该内容并将其放入数据库中以便我以后可以搜索?

0 投票
16 回答
20676 浏览

speech-recognition - 面向开发人员的语音识别软件

好吧,医生终于说出来了,我需要在手腕上放松几个月。由于我是一名 .NET 开发人员,这可能会暂时结束我的生计,我并不急于这样做。也就是说,开发人员有什么好的免提选项吗?有人成功使用了任何语音识别软件吗?

后记:我的手臂再次恢复到双手编程不成问题的程度。Dragon 自然地运行良好,但速度较慢,不像键盘那样我编程的速度比我想象的要快。

0 投票
1 回答
279 浏览

computer-science - 声音流中的单词识别技术有哪些?

我对此很好奇。

从广义上讲,如何进行以下操作:

  • 单词分离的检测。
  • 音节检测。
  • 补偿正常的语音单词连接。
0 投票
11 回答
69673 浏览

c# - C# 语音识别 - 这是用户所说的吗?

我需要编写一个使用语音识别引擎的应用程序——无论是内置的 vista 引擎还是第三方引擎——它可以显示一个单词或短语,并识别用户何时阅读它(或它的近似值) )。我还需要能够在语言之间快速切换,而无需更改操作系统的语言。

用户将在很短的时间内使用该系统。该应用程序需要在不需要首先针对用户的声音训练识别引擎的情况下工作。

如果这可以在 Windows XP 或更低版本的 Windows Vista 上运行,那也太棒了。

可选地,系统需要能够以用户选择的语言将屏幕上的信息读回给用户。我可以使用预先录制的画外音来解决这个规范,但首选方法是使用文本到语音引擎。

任何人都可以为我推荐一些东西吗?

0 投票
3 回答
7428 浏览

c# - Question SpeechSynthesizer.SetOutputToAudioStream 音频格式问题

我目前正在开发一个应用程序,该应用程序需要传输编码为特定音频格式的语音。

这表明音频是 PCM 格式,每秒 8000 个样本,每样本 16 位,单声道,每秒 16000 个平均字节,块对齐为 2。

当我尝试执行以下代码时,我的 MemoryStream 实例中没有写入任何内容;但是,当我从每秒 8000 个样本更改为 11025 个样本时,音频数据已成功写入。

使用 8000 的采样率时没有记录任何异常或错误,我在有关 SetOutputToAudioStream 的文档中找不到任何有用的信息,以及为什么它以每秒 11025 个样本而不是 8000 的速度成功。我有一个涉及我的 wav 文件的解决方法使用一些声音编辑工具生成并转换为正确的采样率,但如果可以的话,我想从应用程序中生成音频。

一个特别有趣的地方是 SpeechRecognitionEngine 接受该音频格式并成功识别了我合成的波形文件中的语音......

更新:最近发现这种音频格式对于某些已安装的声音成功,但对于其他声音则失败。它专门针对 LH Michael 和 LH Michelle 失败,并且失败因 PromptBuilder 中定义的某些语音设置而异。