问题标签 [speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
12501 浏览

c++ - 使用c++调用和使用Windows语音识别

我正在制作一个涉及使用 Windows 语音识别的应用程序。我正在考虑使用 c++ 来做到这一点,因为我对这种语言有一些经验。我想使用语音识别的方式是让它在内部工作。如果我将音频文件上传到我的程序中,我希望语音识别将此音频写为文本文件,但这一切都应该在内部完成。请为此提供一些帮助,如果我没有正确解释我的问题,请告诉我,我会再次尝试解释。

在此先感谢, divs

0 投票
2 回答
6976 浏览

python - pyspeech (python) - 转录 mp3 文件?

我想使用 pyspeech API 转录 mp3(语音转文本)。不过,我不知道这是否可能。

是吗?如何?

0 投票
1 回答
1431 浏览

c# - 设置输入到波形文件

我是 C# 新手,目前正在从事一个项目,该项目涉及我使用音频文件作为输入并将其写为文本。我有使用 system.speech 的代码。我从http://blog.thomascsherman.com/2009/08/getting-started-with-windows-voice-recognition/获得了这段代码 ,它可以编译,但我在运行时遇到了问题。一旦我运行它,代码就会崩溃,控制台会说“找不到输入文件”。我意识到输入文件的路径是什么,并且我知道该文件在该文件夹中。请帮我解决一下这个。我正在粘贴下面的代码。

使用系统;使用 System.IO;使用 System.Speech;使用 System.Speech.Recognition;使用 System.Speech.AudioFormat;

公共课你好{

0 投票
1 回答
371 浏览

android - Android中处理语音包的API

是否有在 Android 通话期间处理语音数据包的 API?如何访问语音数据包?

谢谢,
斯里拉姆

0 投票
4 回答
1053 浏览

asp.net - Speech enabled asp.net application

We are working on an asp.net web application that requires some data to be entered by speech.

The user can enter some data using normal user interface however, we want an additional feature where he can enter data by speaking. We can fix the voice commands like to enter "value1" to "data1", user will speak "data1" followed by "value1" (or anything else, that can be fixed later).

I searched over the internet and found that using Microsoft Speech SDK is a solution. We started with some initial implementation and found that it only works with IE and requires a plugin (we were not able to use this plugin in Windows 7, just XP).

Is there any other solution or can SASDK be used for other browsers as well ? Any suggestions would be helpful.

Thanks, Gaurav

0 投票
0 回答
200 浏览

speech - 英语语音短语的数据源

我正在研究为学生(使用英语作为第二语言)开发一个模拟环境来练习英语口语。

在我的开发的一部分中,我需要一个数据源,其中主要包含针对真实事件标记的英语语音短语。例如,“道歉的方式”。对不起。我很抱歉!对您的损失深表歉意。”</p>

我可以找到几个提供此服务的网站http://edition.englishclub.com,但不是数据源。

有人使用过这样的数据源,可以像“wordnet”一样使用吗?如果是这样,请帮助我继续前进。否则我必须开发这样一个数据源,我感觉就像是在重新发明轮子。

0 投票
2 回答
5189 浏览

android - Google speech to text API for languages other than English

Is there an API for speech to text for languages other then English? I know the API for English (http://developer.android.com/resources/articles/speech-input.html) but I want be able to recognize speech in my language as e.g. Google Maps or Search do. It can even be general API, not Android API.

0 投票
2 回答
1109 浏览

applescript - AppleScript 和语音

是否可以使用 AppleScript 停止 Mac 当前正在生成(或已排队)的任何语音?

我基本上是在寻找与 AppleScript “say” 命令相反的东西。

0 投票
3 回答
24039 浏览

speech-recognition - 用于检测人声、性别、年龄和情感的音频分析——之前是否做过任何开源工作?

在“音频分析”领域是否有先前的开源工作来检测人声(比如尽管有一些背景噪音),确定说话者的性别,可能确定否。说话者的年龄、说话者的年龄和说话者的情绪?

我的预感是,像 CMU Sphinx 这样的语音识别软件可能是一个很好的起点,但如果有更好的东西,那就太好了。

0 投票
0 回答
842 浏览

sapi - 语音训练文件和注册表位置

我有一个语音项目,需要在代码中进行声学训练。我成功地使用 SAPI 在 Windows 7 下创建了带有成绩单及其相关注册表项的培训文件。但是,我无法确定识别引擎是否成功使用这些文件并调整其模型。我的问题如下:

  1. 通过控制面板训练 UI 进行训练时,系统将训练文件存储在“{AppData}\Local\Microsoft\Speech\Files\TrainingAudio”中。音频培训文件是否必须存储在此位置,或者只要配置文件的注册表条目反映正确的路径,我可以将它们存储在其他位置吗?

    1. 语音控制面板在“HKCU\Software\Microsoft\Speech\RecoProfiles\Tokens{ProfileGUID}{00000000-0000-0000-0000-0000000000000000}\Files”键中为训练音频文件创建注册表项。

    a) 我的培训代码创建的注册表项是否必须放在“{00000000-0000-0000-0000-0000000000000000}\Files”中,或者我可以在 {ProfileGUID} 下创建一个新的随机 GUID?

    b) 子项是否必须命名为“文件”?

    c) 注册表值是否必须遵循“TrainingAudio-xxxx-xxxxxxxx-xxxxxxxx”的形式,或者我可以使用其他值吗?

    d) 最后,注册表值数据的格式为“%1c%\Microsoft\Speech\Files\TrainingAudio\SP-xxx....xxx”。我可以指定绝对路径吗?

    e) 文件名是否必须遵循“SP-xxx....xxx.wav”形式,或者我可以使用任何唯一的文件名吗?

谢谢。

吉里