问题标签 [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 我可以在 JavaScript 中使用 NSSpeechSynthesizer 吗?
我有一个简短的问题:我可以从 JavaScript 使用 NSSpeechSynthesizer 或 Mac OS 的 Text-to-Speech 引擎(如果我在使用 Safari 的 Mac 上)?如果是这样:如何?
谢谢!
- 约翰内斯
java-me - J2ME 中的语音识别
我正在使用 j2me 开发移动应用程序。我需要有一个语音识别功能,这样应用程序应该能够处理用户给出的命令并采取行动。我想知道的是
这在技术上是否可行(我是 j2me 编程的新手)?
如果可能的话,我在哪里可以找到用于语音识别的 j2me 库?
提前致谢,
女娲
speech-recognition - 有没有在语音级别输出语音到文本的软件?
是否有任何软件能够获取音频文件并输出语音 (IPA) 文本?
我知道那里的大部分软件都将其直接转换为一种语言,但是有没有一种“可教”的软件?
c++ - 谁能推荐一个不错的 C++ DSP/语音库?
尽管SPUC引起了我的注意,但 Google 返回的结果太多。是否有像 OpenCV 这样的标准推荐库用于视觉?必要的功能是:
- 免费开源
- 滤波器设计(Butterworth、Chebyshev 等)
- 快速傅里叶变换
- 如果可能的话,一些语音处理功能,比如 MFCC 计算,虽然那是次要的,因为我可以使用 SPTK (sp-tk.sourceforge.net) 作为那部分。
.net - Speechlib on Shared hosting - ASP.NET
I am trying to use SpeechLib on my personal website. It's a very simple app that saves some text to a wav file - standard stuff. Works great on the dev machine. But all hell breaks loose when I deploy it to the shared host.
Sometimes I get prompted for user name and password at the time of writing the wav file. Sometimes, I get the "Security exception". The site has full trust and I can write a simple txt file from my app without any issues.
On scouring the internet, I realized that the SpeechLib component temporarily writes a file to:
I verified this on the dev machine. It indeed does.
So, my guess was that on the shared host, ASPNET does not have rights to write to that folder(?). So, I contaced the hosting service only to be told I have to upgrade to Virtual Private Server. I am not sure if they know what they are talking about.
Has anyone gotten SpeechLib to work on the shared host. Here's the exact same issue I am facing:
http://www.eukhost.com/forums/f41/interop-speechlib-dll-6743/
Any thoughts?
c++ - 大声朗读源代码
看到这个问题后,我开始思考盲人程序员面临的各种挑战,以及其中一些挑战如何适用于有视力的程序员。特别是,大声阅读源代码的问题让我停下来。我一生大部分时间都在编程,我经常辅导同学编程,最常见的是 C++ 或 Java。
试图用语言表达 C++ 表达式的基本语法是特别令人恼火的。说话者必须将惯用语翻译成英语,或以口头表达的方式完整说明代码,使用明确而缓慢的术语,例如“开括号”、“按位与”等。这些解决方案都不是最优的。
一方面,惯用的翻译只对可以反翻译成相关编程代码的程序员有用——这在辅导学生时通常不是这种情况。反过来,教育(或只是让某人加快项目进度)是大声朗读源代码的最常见情况,并且出错的余地很小。
另一方面,字面规范的速度非常慢。说“磅,包括,左尖括号,iostream,右尖括号,换行符”比简单地输入要花费更长的时间#include <iostream>
。事实上,大多数有经验的 C++ 程序员只会将其理解为“包含 iostream”,但同样,缺乏经验的程序员比比皆是,有时需要文字规范。
所以我有一个想法来解决这个问题。
在 C++ 中,有一组有限的关键字—63 — 和运算符—54,不考虑命名运算符,并将复合赋值运算符和前缀与后缀自动递增和递减视为不同。只有几种类型的文字、相似数量的分组符号和分号。除非我完全弄错了,否则就是这样。
那么,简单地为这些不同的概念中的每一个赋予一个简洁、独特的发音(包括一个用于空格的,在需要的地方)并从那里开始是不可行的吗?编程语言比自然语言更规律,所以发音可以标准化。任何语言的说话者都能够口头传达 C++ 代码,并且由于语言的规律性和固定性,可以优化语音到文本的软件以高度准确地接受 C++ 语音。
所以我的问题是双重的:第一,我的解决方案是否可行;其次,还有其他人有其他潜在的解决方案吗?我打算从这里获取建议并使用它们来制作一份正式的论文,其中包含我的解决方案的示例实现。
vector - 语音处理中的向量量化解释
我无法从这篇研究论文中确切地确定如何根据训练数据集重现标准矢量量化算法来确定身份不明的语音输入的语言。以下是一些基本信息:
摘要信息
使用声学特征的语言识别(如日语、英语、德语等)是当前语音技术的一个重要而困难的问题。... 本文使用的语音数据库包含 20 种语言:16 个句子,由 4 名男性和 4 名女性说出两次。每个句子的持续时间约为 8 秒。第一种算法基于标准矢量量化 (VQ) 技术。每种语言都有自己的 VQ 码本,.
识别算法
第一个算法基于标准矢量量化(VQ)技术。每种语言 ,k
都有其自己的 VQ 码本 , 。在识别阶段,输入语音被量化
并计算累积量化失真 d_k。作为最小失真的语言被识别。计算 VQ 失真,应用了几个 LPC 频谱失真测量......在这种情况下,WLR - 加权最小比率 - 距离:
该距离d
可以是与声学特征相对应的任何距离,并且必须与用于码本生成的距离相同。每种语言都以其 VQ 码本为特征,.
我的问题是,我到底该怎么做?我有一组50个英语句子。在 MATLAB 中,我可以轻松计算任何给定信号的 WLR。但是,我该如何制定码本,因为我必须使用 WLR 来生成英语的“码本”。我也很好奇如何将大小为 16 的 VQ 码本(被发现是最佳大小)与给定的输入信号进行比较。如果有人可以帮我提炼这篇论文,我将不胜感激。
谢谢!
speech - 使用 Speech Server 2007 搜索数据库
我正计划使用 Microsoft Speech Server(现为 Office Communications Server 2007 R2)构建电话语音应用程序。
在开始之前,我一直在尝试找到一些示例代码或教程,以了解如何搜索将保存在数据库中的某些已识别文本。典型的例子是电话簿(我相信微软有一个用于他们的总机)。我想提示某人说出他们想要的人的姓氏,然后在数据库中查找并连接呼叫。显然,我可以只使用识别的响应文本并用它搜索数据库,但是我担心由于拼写不同,这不会很有效。
有没有办法在数据库中搜索与识别文本最匹配的名称?
c# - 我应该使用哪种音频编解码器?
我应该为我的 C# 软件开发项目选择哪个音频编解码器,其中要转码/传输/使用的原始音频基于以下内容:
- 仅用于编码语音
- 音频可以是立体声或单声道
- 能够支持直播
- 文件大小和质量之间的良好权衡
- 以编码形式通过 TCP/IP 传输
- 无需进一步处理即可由现成的免费播放器播放
请注意,无需考虑是否有现成的免费编解码器库用于执行转码。
c# - 系统.语音和声音
是否可以从 Scansoft 语音 .exe 文件创建便携式应用程序?(www.portableapps.com)。
然后能够通过 .NET 3.5 中的 System.Speech 命名空间以编程方式访问声音?
我想这样做,这样我就不必为了安装我的文本到语音网络应用程序而使用专用服务器。
帮助 !