问题标签 [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - 如何在以 Windows Form 作为界面窗口的 CLR 项目中使用 SAPI 的 SetNotifyCallbackFunction()?
我正在尝试为 Winamp 编写一个 dll 插件。我正在使用 Microsoft Visual Studio 2008 和 Microsoft SAPI 5.1。我使用 Windows 窗体 (System::Windows::Forms::Form) 创建了界面窗口。
我尝试使用 SetNotifyWIdowMessage(),但当我对着麦克风讲话时,该方法从未被调用过。所以我尝试使用 SetNotifyCallbackFunction(),但是我得到一个编译错误,说我应该在参数中的方法名称前面使用 '&'。但是,当我添加“&”时,我收到另一个编译错误,说除非创建委托实例,否则我无法获取方法的地址。
我该怎么办?有人请帮助我..
signal-processing - 识别个人声音
我计划编写一个对话分析软件,它可以识别每个说话者、他们的音调和强度。音高和强度有些简单(通过自相关音高)。
我将如何识别个别说话者,以便记录他/她的特征?为每个扬声器的频率存储一些启发式方法就足够了吗?我可以假设一次只有一个人说话(严格不重叠)。我还可以假设,对于培训,每个演讲者可以在实际分析之前记录一分钟的数据。
python - Dragon NaturallySpeaking 程序员
有没有将 Dragon NaturallySpeaking 纳入事件驱动程序?如果我使用 DNS 记录用户语音输入而不将其写入屏幕并将其直接保存为 XML,我的老板会非常喜欢它。我已经做了几天的研究,如果没有(非常昂贵的)SDK,我看不到这种情况发生的方法,我什至不知道它会起作用。
微软有能力编写一个(Python)程序,它的语音识别器可以等到它检测到语音事件然后处理它。它还具有方便的品质,能够建议替代短语来替代它认为是最佳猜测的短语,并记录 .wav 文件以供以后使用。示例代码:
我似乎无法让 DNS 做到这一点。我能做的最接近的事情是:
它甚至具有让用户在每句话后都说“换行”的可怕副作用!根本不是首选的解决方案!有没有办法让 DNS 像 Microsoft Speech 那样做?
仅供参考:我知道合乎逻辑的解决方案是简单地切换到 Microsoft Speech,但让我们假设,只是为了笑容和咯咯笑,这不是一个选择。
更新 - 有人购买了 SDK 吗?你觉得有用吗?
.net - System.Speech.Recognition 和 Microsoft.Speech.Recognition 有什么区别?
.NET 中有两个用于语音识别的类似命名空间和程序集。我试图了解差异以及何时适合使用其中一种。
有来自程序集 System.Speech 的 System.Speech.Recognition(在 System.Speech.dll 中)。System.Speech.dll 是 .NET Framework 类库 3.0 及更高版本中的核心 DLL
还有来自 Microsoft.Speech 程序集的 Microsoft.Speech.Recognition(在 microsoft.speech.dll 中)。Microsoft.Speech.dll 是 UCMA 2.0 SDK 的一部分
我发现文档令人困惑,我有以下问题:
System.Speech.Recognition 说它用于“Windows 桌面语音技术”,这是否意味着它不能用于服务器操作系统或不能用于大规模应用程序?
UCMA 2.0 语音 SDK ( http://msdn.microsoft.com/en-us/library/dd266409%28v=office.13%29.aspx ) 说它需要 Microsoft Office Communications Server 2007 R2 作为先决条件。但是,我在各种会议上被告知,如果我不需要 OCS 功能(如存在和工作流),我可以在没有 OCS 的情况下使用 UCMA 2.0 Speech API。这是真的?
如果我正在为服务器应用程序构建一个简单的识别应用程序(比如我想自动转录语音邮件)并且我不需要 OCS 的功能,那么这两个 API 之间有什么区别?
audio - TI-99语音效果?
我想制作一个程序来记录语音并对其进行转换,使其听起来像是来自德克萨斯 TI-99。你有什么好的想法和资源来解决这个问题吗?
audio - 用于从音频流中提取单词(语音)的库?
我有一个音频流,我会从中提取单词(语音)。例如,如果有 audio.wav,我会得到 001.wav、002.wav、003.wav 等,其中每个 XXX.wav 是一个单词。
我正在寻找一个库或程序来做这件事——平台无关紧要,但我更喜欢开源解决方案。
提前感谢您的帮助。
pdf - 语音PDF?
我想在 PDF 文档中添加语音/旁白。
因此,一个句子被突出显示(背景颜色或文本颜色发生变化)并播放同步的音频(不是计算机语音,而是录制的音频剪辑)。我该怎么做?是否有现成的软件可用(最好在 mac 上)来实现这一点?
我会很感激任何帮助。
谢谢
python - python 3.x 语音模块
python 3.0 是否有 pyTTS 或某种语音模块?我似乎在任何地方都找不到它,我真的很想尝试一下。
delphi - Microsoft 语音 api 5.1 GetVoices 返回 Windows 7 上不存在的语音
我正在从 XP 迁移到 Windows 7 64 位。我在 XP 机器上编译的应用程序可以在 XP 上正常运行。但是,当我在 W7 机器上运行 exe 时,GetVoices 返回的声音列表如下:
Microsoft Anna
Microsoft Mary
Microsoft Mike
Sample TTS Voice。
检查 W7 语音属性对话框显示机器上仅加载了 Microsoft Anna。检查 HKEY_LOCAL_MACHINE/SOFTWARE/Microsoft/Speech/Voices 的注册表可以确认这一点。
在我的新 Windows 7 开发机器上重新编译我的应用程序会创建一个重复上述行为的 exe。(XP编译代码和W7编译代码在W7下执行时重现同样的错误)
我在 Windows 7 64 位上使用 Delphi 7 进行开发,我正在使用 Microsoft Speech Object Library(版本 5.4)(注意:5.4 是导入类型库列表中显示的内容)。
我将 SpeechSDK51.exe 安装到我的 W7 机器上。这来自:
以下代码在 Windows 7 上生成 4 种声音的列表,即使应该只有一种声音:
关于如何处理这个问题的任何建议?
谢谢,
肖恩
asp.net - 通过 IIS 运行 Microsoft.Speech?
我有一个应用程序使用 Microsoft.Speech 来识别 WAV 文件中的语音。它在作为控制台应用程序在本地运行时完美运行,但在由 IIS 执行时会出错。
假设我在带有 .NET 3.5+ 的 WinServer 2008 上安装了以下内容:
- Microsoft 语音平台 - 软件开发工具包 (SDK)(版本 10.1)
- Microsoft 语音平台 - 服务器运行时语言(版本 10.1)
- Microsoft 语音平台 - 软件开发工具包 (SDK)(版本 10.1)
甚至可以在 IIS7 上使用 Microsoft.Speech 吗?我在这里想念什么?
我尝试将其重新编码为 ASP.NET Web 服务,但这也不起作用。
Suuuuper 卡在这里。谢谢,如果你能帮忙 :) 漂亮请 :)
更新: 这是错误消息+堆栈跟踪: