问题标签 [speech-recognition]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1241 浏览

cocoa - 使用 NSSpeechRecognizer 或替代音频文件而不是麦克风输入?

是否可以将 NSSpeechRecognizer 与预先录制的音频文件一起使用,而不是直接麦克风输入?

或者是否有其他可用的 Objective-C/Cocoa 语音到文本框架?

补充

而不是在运行应用程序的机器上使用语音,可以使用外部设备(例如 iPhone)仅将录制的音频流发送到该桌面应用程序。然后,桌面 Cocoa 应用程序将使用分配的命令处理并执行它应该执行的任何操作。

谢谢。

0 投票
2 回答
138 浏览

c# - What is a good resource for learning the System.Speech APIs?

In C# 3.5 System.Speech.dll was added for doing text-to-speech and speech-to-text conversions. Searching on the internet I've found a few blog posts about getting started, but are there any good resources for learning more about this technology? (Other than the obligatory MSDN documentation.)

0 投票
4 回答
432 浏览

video-streaming - 用现代软件击败图灵测试的可行性?

我在学术上提出这个问题,我想大声提出一个非常重要的问题,并让社区尝试回答它。我们能否构建一个系统来生成一个场景,以便在实时匿名群组视频聊天室中播放,该聊天室可以读取输入的文本并用聊天机器人做出响应?

实时 Internet 视频通常很模糊,并且分辨率较低。在远处聚会的场景中,人们无法辨认出许多细节。可以使用现代软件工具渲染场景,这些工具在不移动时看起来非常真实。让它们真实地移动是一个很大的模拟软件。

由 24 个系统组成的集群每秒可以处理 1 帧,可以每秒 24 帧的速度渲染人脸。然后,视频会从决定生成哪种面部表情的时间点延迟 1 秒。这些面部表情及其产生是一个关键问题。皮肤真实感要求是图形社区解决的问题。

一些研究人员对面部表情进行了分类。它们也可以被渲染,这已在现代计算机图形学文献中得到证明。如果我们知道哪些适合特定情况,我们就可以做到。

聊天机器人已经使用了几十年。现在存在相当“智能”的聊天程序,它会阅读所询问的内容并以明智的方式回复。他们一直用文本来做这件事,但是文本阅读器软件可以用人类的声音说话,而且语音识别软件每年都在变得更好。

我的建议是,连接软件开发的所有这些不同部分并创建一些真正令人惊叹的图灵测试搅拌器应该是相当初级的。

这个程序可以像其他参与者一样进入一个虚拟空间并显示一个真实的环境,就像在网络摄像头上一样。它可以观察他们的面部表情,可以听他们的讲话,还可以阅读他们的文字。然后它可以创建一个响应,然后输入或回复给该组。选择回应什么是一个困难的问题,甚至大多数人都没有掌握。我们可以通过大量工作来接近它。

图灵测试是关于证明沟通者是人,但“证明”只是在足以愚弄人类法官的意义上。如果人类法官只是每个人,他们就不太可能采用严格的正式程序。猜测或中招就足够了。

你觉得我们能做到吗?

这个计划有缺陷吗?以这种方式欺骗普通观众是否有道德含义?我们可以通过生成个人智能助理来赚取数百万美元吗?

0 投票
5 回答
8766 浏览

c# - 流式输入到 System.Speech.Recognition.SpeechRecognitionEngine

我正在尝试从 TCP 套接字在 C# 中进行“流式传输”语音识别。我遇到的问题是 SpeechRecognitionEngine.SetInputToAudioStream() 似乎需要一个可以寻找的定义长度的流。现在,我能想到的唯一方法是随着更多输入的进入,在 MemoryStream 上重复运行识别器。

这里有一些代码来说明:

有谁知道如何解决这个问题?它必须支持某种类型的流输入,因为它可以与使用 SetInputToDefaultAudioDevice() 的麦克风一起正常工作。

谢谢,肖恩

0 投票
1 回答
517 浏览

c++ - 如何在视频文件中使用语音识别?

如何编码语音识别引擎(使用 Microsoft Speech SDK)来“收听”视频文件并将检测结果保存到文件中?

0 投票
1 回答
3516 浏览

c# - SpeechSynthesizer - 如何播放/保存 wav 文件?

我在 ASP.NET 应用程序(非 Silverlight)中有以下代码片段

我如何:

  1. 在浏览器上播放此文件

  2. 提示用户下载 wav 文件?

任何人都可以帮助完成代码吗?

编辑:任何帮助表示赞赏。

0 投票
1 回答
2398 浏览

speech-recognition - 从视频和音频文件中提取语音的文本

执行此操作的最佳库是什么。并且是质量好足以依靠。不可能用说话者的声音训练系统或使用术语词典来改善结果。

0 投票
4 回答
594 浏览

c# - 关于 .NET 中语音识别类的问题

是否可以使用 .NET 语音识别类构建应用程序并传入一个 WAV 文件,以便它通过并创建它的文本表示。例如,这就是我想要做的:

我们在我的办公室有一个 QA 部门,他们每天必须接听数百个电话,这几乎是不可能的,而且没有足够的人听所有的事情来跟上进度。我想要做的是将音频文件上传到我们的服务器并让服务器解析它并创建它的副本。它是否不完美并不重要,但只是一个基础,它比听 2 小时的录音更容易浏览几十行文本。

根据保存的成绩单,我可以在数据库中实现全文搜索,并且如果有人说的是虚假陈述,还可以对成绩单进行检查。

那么,是否可以使用 .NET 语音识别类创建一个应用程序,然后将 WAV 文件传递​​给它,然后它会输出一个粗略的成绩单?

在思考这个想法时,我在语音课程上短暂地研究了 MSDN,所以如果可以做到的话,我没有那么多知识。

如果可能,我将不胜感激 C# 中的任何示例。主题1055347类似于我遇到的问题,并提供了链接,其中最具体的是 C++。我不是 C++ 开发人员,也没有上过学编程,虽然 C# 我是自学的,所以我想继续使用我所知道的语言。

提前致谢!

0 投票
5 回答
1434 浏览

speech-recognition - 嵌入式应用的语音识别引擎

我正在尝试研究可用的语音识别引擎和 SDK,以开发支持 Windows CE 语音的应用程序。我遇到过 Nuance,但没有看到太多其他东西。如果可能的话,我更喜欢 .Net SDK,但我想大多数都是 C/C++。我很感激任何建议。谢谢。

0 投票
3 回答
1030 浏览

c# - Windows 语音识别 C#

我正在制作一个做东西的程序(对不起,我不能说它是什么),但我希望能够让 Windows Speech 以某种方式“知道”我的表单上有链接标签和按钮,这样当我说“下一步”或“开始”等时,它会点击这些按钮。就像您使用 IE 并在 Google.com 上时一样,当您说“搜索”时,它将执行单击搜索按钮并开始搜索。

问题是它似乎不知道 C# windows 窗体应用程序中存在按钮/链接标签或类似的东西。这是我们必须自己做的事情吗?

谢谢

贝尔