问题标签 [speech-synthesis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 语音合成电话,Android?
在 Android 中,我可以有一个可以拨打语音合成电话的应用程序吗?也就是说,当电话被接听时,我想要说出一串文本。
signal-processing - 带有 LPC 编码器/解码器的 DSP 库
我正在尝试创建一个轻量级的双音素语音合成器。一切看起来都非常简单,因为我的母语有非常简单的发音和文本处理规则。我偶然发现的唯一问题是音高控制。
据我了解,为了控制语音的音高,大多数语音合成器都使用 LPC(线性预测编码),它基本上将音高信息与录制的语音样本分开,然后在合成过程中我可以提供自己的音高需要。
问题是我不是 DSP 专家。我使用了一个 Ooura FFT 库来提取 AFR 信息,我对使用 Hann 和 Hamming 窗口有所了解(我自己实现了 C++ 代码),但我大多将 DSP 算法视为黑匣子。
我希望找到一些开源库,它只是带有使用示例的裸 LPC 代码,但我找不到任何东西。大多数可用代码(如 Festival 引擎)都紧密集成到合成器中,分离它并学习如何使用它是一项非常艰巨的任务。
是否有任何 C/C++/C#/Java 开源 DSP 库带有“黑匣子”风格的 LPC 算法和使用示例,所以我可以只扔一个 PCM 样本数据并获得 LPC 编码输出,然后扔编码数据并合成解码后的语音数据?
text-to-speech - 将节日 tts 转换为 flite tts
我目前有一个 tts,它是使用festival 和 festvox 构建的。我需要转换这些声音并在 flite 中构建一个 TTS。显然,您可以使用 festvox 进行转换(festvox 和 flite 网站都这么说,但没有正确的操作步骤)。有人可以帮我解决这个问题,因为我是这个地区的新手吗?提前谢谢..
java - 找不到类,为什么?
我正在尝试导入 javax.speech.recognition.Result;在我的代码中。但我得到类未找到错误。
使用 javap 检查;如下:-
我正在使用 java 7,请找到以下输出:-
请帮忙,我正在努力进行语音识别。
谢谢
安装 jsapi.sh 文件后,该目录的屏幕截图如下:-
是否需要包含所有 jar 文件;任何简单的教程或步骤都会对我有很大帮助。
.net - 用 System.Speech.Synthesis 发音美元金额
如果我在 .NET 的语音合成器中运行它
它发音为:
dollars nine dot zero zero
System.Speech.Synthesis 中的文档SayAs
枚举说:
列举时间、日期和货币等元素的内容类型。
伟大的!除了枚举实际上没有任何与货币相关的东西!只是日期、数字和单词的拼写。
看起来在 Speech Server 2007 中他们曾经同时拥有电话号码和货币,但现在已经不存在了!
我意识到我可能已经写了一个正则表达式来在我写这个问题的时间里解析它 - 但如果有办法以更好的方式做到这一点,我很想知道如何做。
c# - 如何在 SpeechSynthesizer 播放时播放 IMFMediaEngine 背景音频
我想在播放背景音频时播放 Windows Phone 8 的语音合成器。但每次,我激活语音合成器,背景音频停止播放,并在合成器完成后恢复。
有什么建议么?谢谢。
下面的一些代码片段: 背景音频:在 C++ 中使用 IMFMediaEngine,播放成功。
在 C#/XAML 中,我有一个带有按钮的 XAML 页面,当我单击它时,它会从 WP8 的最新语音类中播放。播放文本。
我尝试将 SpeakTextAsync 通过线程,但我想我做错了,因为我仍然无法同时播放两个音频。
speech-recognition - 文字转语音、语音合成、回复:可以吗?
所以,我在这里很新,我很难搜索一些信息。
我想知道这项技术目前是否存在于移动平台上。
我想用手机录制一个人的声音和短语。然后根据语音,允许其他人输入文本以检索语音数据。最好不要使用相同的单词,同时给出一个短语来捕捉产生所需短语所需的正确音节。基本上是文字转语音,但实时输入,有点像《碟中谍2》。EG我哥哥打电话给我,我录下他的声音,然后打电话给我妈妈,听起来像我哥哥。但是,不要像在音乐文件中那样将声音拼凑在一起,而是输入我想说的内容。最好是听起来不机械的东西。
希望我的描述是有道理的,任何帮助都会得到极大的帮助。
谢谢,威尔
nlp - 给定 100,000 个单词到音素的映射,我如何在音素边界上拆分原始单词?
我有 100,000 多个单词到他们的音素(CMUdict)的映射,例如:
我想将原始单词的字母分成等于音素数量的组,例如
我没有音素到字素的映射,但似乎我应该能够计算音素到字素的统计模型,然后用它来决定在哪里分割每个单词。(如果该模型也可以用于将新单词转换为其可能的音素,那就太好了)
我怎样才能做到这一点?我在想一个隐藏的马尔可夫模型听起来可能是适用的,但除了那种预感我不知道。
c++ - 检测音频输出+语音合成库的建议
我想检测我的电脑是否正在播放任何类型的音频(音乐/电影)。
我写了一个应用程序来通知我我的推特更新。现在我想为其添加语音合成,但我只想在没有音乐或电影播放的情况下播放消息。
虽然我使用的是 C#,但我不介意使用 C++ 进行检测然后集成它。
所以问题是:
1)如何检测音频输出?
2) 什么是 Windows 最好的免费语音合成库?
c# - Windows Phone 8 语音合成器暂停
我正在开发一个应用程序,我想在 SpeechSynthesizer.SpeakTextAsync 运行时暂停并从那里恢复。
什么时候停止阅读var stop = true;