问题标签 [speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python中的语音识别
我找到了语音模块,我可以让我的电脑说出我写的东西。但问题是当我从这里尝试示例代码时:http: //pypi.python.org/pypi/speech/0.5.1它给了我一个错误并且不能这样做。这是我得到的错误:
我真的希望有人能帮助我。
非常感谢提前,
杰克
speech-recognition - 使用 MS 语音识别服务器 API 进行转录
众所周知,现在 MS 语音 API (Microsoft.Speech) 的服务器版本不支持加载听写语法。
Q1:有没有办法解决这个问题?
Q2:我想到的一个想法是根据人们在特定主题上的对话历史(例如聊天室)构建语法。该软件需要进行自然语言转录,但使用的语言子集可能会有所限制。
这是否有可能相当准确和稳健?或者它是不是你不打算用非发音语法做的事情?
谢谢
简
speech-recognition - 语音识别和语音合成入门
我想开始使用基于语音识别的 Prototype中的语音识别和语音合成 有人告诉我使用微软语音服务器(sdk 等)
当我有这个时,我如何对应用程序进行编程,以及使用哪种编程语言(开发环境?)?
有人使用星号或 SVOX 吗?
我需要去做:
语音识别语音合成
我不必是一个非常好的语音识别 - 我认为 30 -50 个单词应该足够开始了。我正在使用 Windows。
提前致谢
php - ISpRecoGrammar::IsPronounceable 在 PHP 中?
我试图找到一些可以测试字符串“发音”的东西,尽管我实际上怀疑是否有任何东西可以免费获得。
发现微软有一个库,我实际上有点惊讶。 http://msdn.microsoft.com/en-us/library/ms718902(VS.85).aspx
这让我开始思考,也许它确实存在于其他地方,或者也许有一些合理的 soundex+foo 组合,我可以将它们组合在一起,这将奖励 BOOL 或“% RATING”,这可能有助于我确定生成的字符串是否是发音。
你会如何解决这个问题?难度:在 LAMP 系统上实现(我希望我的网络服务器自动对单词的 PINDEX 进行分类)。
编辑:oo...发现了一些更酷的链接。凉爽的!:)
http://www.addedbytes.com/code/flesch-kincaid-function/
如何检查一个字符串是否看起来是随机的,或者是人为生成的和发音的?
编辑2:
天啊!有一个可用的谷歌代码项目:
http://code.google.com/p/php-text-statistics/
如果我确实设法让它工作,我一定会跟进一个简短的教程。
iphone - 用于语音到文本(语音识别)的 API 或 SDK iphone
嗨,我想要一个语音识别 api 或 sdk 来识别用户所说的语音并给出它的文本形式。
详细说明如下:
在我的应用程序中,我需要播放已经存在的音频文件和文本。当音频开始播放时,应该突出显示所说的单词(来自音频文件)。
因此,如果我能够从 api 或 sdk 中获取单词,则可以突出显示它。
除了我用谷歌搜索了很多 api 并且我遇到了ceedvocalsdk但它不能免费试用。
如果有人可以提供除此适合我的要求或 api 或 sdk 的任何想法,我将非常感激。
xml - SpeechServer 上的 VXML
我有一个问题,在http://www.vxml.org/frame.jsp?page=t_1.htm 它说我必须将 voicexmlfile 保存为 .xml
但是当我在语音服务器 2007 上创建一个新应用程序时,它说,我只能将 .speax 文件放在那里......
但是当我这样做时,它不起作用......
我必须将其保存为 .spax 吗?在服务器上创建一个新应用程序有什么问题吗?
谢谢 :>
android - 说服 TextToSpeech 发音字母表中的字母
我正在尝试让 TextToSpeech 在 Android 模拟器中说出字母数字引用。如果我有一个诸如“31NAA123”之类的字符串,那么我会在所有字符之间插入空格,然后将其提交给 speak 方法。它可以处理大多数字母,但会偶然发现“A”,它们发出的声音几乎听不见很短的“啊”,几乎和点击一样短。我试过replaceAll("A", "AY"),结果是“是的,为什么”。我已经尝试过将大多数语速降至 0.3f - 没有任何效果。我正在使用英国语言环境来赋予英国口音。如果有人有任何有用的建议,我将不胜感激。
(我怀疑'i'会给出类似的问题,'o'似乎没问题)
.net - 需要用于比较语音轨道(发音)的库
有两个语音样本(wav 或 mp3)。需要比较两者并设置一些比较系数。
它需要像罗塞塔石碑一样训练发音。
首选 .net 的库。
python - Python Microsoft 语音 API 错误:来自 CmdLoadFromFile 的 SPERR_NO_DRIVER
这个问题很可能没有答案,但我非常希望能在这件事上得到一些帮助。我找到了一段用 Python 处理微软 Speech API 的代码,然后去了解了 W3C 的“ Speech Recognition Grammar Specification Version 1.0 ”。
我把它归结为:
据我了解,上述错误代码对应“SPERR_NO_DRIVER”,与“没有安装波形驱动程序”有关。
我现在被困住了。我不知道在这种情况下,wave driver 是什么,也不知道在哪里可以找到它或如何调试它等等......有什么想法吗?
speech-recognition - 阅读脚本时的语音分析/验证
我需要以编程方式分析读取已知脚本的录制声音。输出应该告诉我读到的单词的位置(在时间坐标中)(至少其中一些)。
我发现使用这种技术的“语音验证”服务有市场(自动验证录制的语音是否正确清晰地阅读特定文本)但我还没有找到任何我可以获得所需的软件或 lib/SDK从输出。
有人可以告诉我这种技术有多好以及我在哪里可以找到它吗?我对高级服务、完整的应用程序、库、SDK 感兴趣——不管它如何工作。预算:未知。
编辑:或多或少需要对大型欧洲语言的支持。英语、法语、德语、西班牙语、希腊语、意大利语、俄语、波兰语会很好,但也欢迎更多。这可能很难实现......