问题标签 [phoneme]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1704 浏览

java - 使用 Sphinx4 将单词转换为语音发音

我正在尝试实现英语单词到音素单词的翻译,以创建 CMUSphinx 的语言模型。现在我正在使用以下工具来实现单词翻译链接

例如,如果我给一个文本文件作为输入,其中包含以下单词,它将被翻译如下

但我想使用 Java 动态地执行此操作。是否有任何 API 或库可以实现这一点。我不想重新发明轮子。或者其他一些具有我可以使用的库的编程语言。

0 投票
2 回答
3720 浏览

python - 估计两个词之间的音素相似度

我正在使用卡内基梅隆大学发音词典在 Python 中检测押韵,并且想知道:如何估计两个单词之间的音素相似度?换句话说,是否有一种算法可以识别“手”和“计划”比“手”和“薯条”更接近押韵的事实?

一些背景:起初,如果两个单词的主要重读音节和所有后续音节相同,我愿意说两个单词押韵(如果你想在 Python 中复制,则为 c06d ):

如果我再跑

我可以看到手和计划听起来非常相似。我可以自己估计这种相似性,但我想我应该问:是否有复杂的算法可以将数学值与这种程度的声音(或听觉)相似性联系起来?也就是说,可以使用哪些算法或程序包来数学化两个单词之间的音素相似度?我意识到这是一个很大的问题,但如果其他人可以就这个问题提供任何建议,我将不胜感激。

0 投票
0 回答
158 浏览

c# - Richtextbox 的编码对于显示音素似乎是错误的

我对 C# 编程很陌生,但我正在尝试将纯文本转换为语音表示。我使用PhonemeReached 事件转换纯文本并通过e.Phoneme 调用它们。(见下面的代码)。

我在富文本框中返回 e.Phoneme 的结果,但它只写乱码(见下图)。这感觉像是一个编码问题,我想知道你对如何解决这个问题的看法。

http://imgur.com/KFN4E5T

更新:正如评论中所说,Jalkar 设法在 win7 上工作。当我在 Windows 7 上测试我的应用程序时,我实际上得到了一个类似音素的字符串。但是,当解码为 ASCII 时,它表示乱码。(到目前为止,我还无法掌握如何将其转换为通用电话机)。其次,正如 Hans Passant 所说,屏幕截图中乱码的 ASCII 是 American Phone 集的索引(参见他的链接)。然而,奇怪的是,Win7 和 Win8 都提供了完全不同的结果。

在下面的屏幕截图中,Win7 上的结果:http: //imgur.com/aTxf5OE

在此屏幕截图中,Win8 上的结果:imgur.com/crAR5HV

如果有人知道如何在 c# 中使用 Microsoft 的 IPA 到 UPS,我很想听听。

0 投票
1 回答
217 浏览

python - categorizing short audio samples

I have a small number of similar types of sounds (I shall refer to these as DB_sounds) to which I need to match a recording (Rec_sounds). Each Rec_sound is short and unique and needs to be matched to its corresponding DB_sound. How do I go about matching them?

To illustrate my problem, consider the following:
Bob, with a deep voice in room A (with some background noise) says Ma
Alice, with high voice in room B says Eh
A Baby is learning to speak. His first word is Eh

Ma and Eh are 2 different types of DB_sounds, so I have to return 2 different results. I have several DB_sound samples of different people saying Ma and Eh to compare the Rec_sounds to

The sounds that I am dealing with are voice recordings of single syllables like la, ba, ne, eh, ma etc.

How should I tackle this?
I don't think audio fingerprinting will work (see spectrogram), and existing voice recognition software like this google api integration in python don't work since I am not trying to recognize human language, but just sounds.

I don't mind building something from the ground up, just point me in a direction you think will work, and please add plenty justification for why you think so.

Spectrograms of 8 samples of a baby saying EH enter image description here

Time domain graphs of 8 samples of a baby saying EH enter image description here

0 投票
3 回答
15537 浏览

python - 将声音转换为python中的音素列表

如何将任何声音信号转换为列表音素?

即从数字信号到录音的音素列表的实际方法和/或代码。
例如:

例如在哪里

我需要这个功能audio_to_phonemes

并非所有声音都是语言单词,所以我不能只使用使用谷歌 API的东西。

编辑
我不想要音频到文字,我想要音频到音素。大多数图书馆似乎没有输出。您推荐的任何库都需要能够输出组成声音的音素的有序列表。它需要在python中。

我也很想知道声音到音素的过程是如何工作的。如果不是为了实现目的,那么为了利益。

0 投票
1 回答
2760 浏览

speech-recognition - 在 pocketsphinx 中指定声学模型的路径

我想构建一个基于音素的小“对话系统”,它可以收听语音,将其转换为一串音素(无论多么错误都无关紧要),处理/存储这些并在音素级别播放它们。我的目标是使用节日/mbrola 或 espeak。都在树莓派上运行(该项目称为 babble pi)。

我在这里遵循了非常好的说明: https ://wolfpaulus.com/jounal/embedded/raspberrypi2-sr/

而且我还通过以下命令得到了很好的认可:

现在我已经在 sourceforge 网站上阅读了这篇关于音素识别的文章:http: //cmusphinx.sourceforge.net/wiki/phonemerecognition

并且还意识到显然 prealpha5 具有新的二进制格式。关于音素识别器的文章指出,基本上英语音素识别器是默认安装包的一部分,因此邀请通过以下方式对其进行测试:

我假设音素文章指的是旧版本的 (pocket-)sphinx,因为它指的是 .dmp 而不是 .bin 文件扩展名,所以我尝试了:

但我收到以下错误:

查看 en-us,实际上只有一个 .dict、一个 .lm.bin 和电话文件。和另一个包含 mdef 文件以及其他几个文件的 en-us 目录。复制它没有帮助。

那么该怎么办?卸载 prealpha5 并安装版本 4?或者我可以在某处下载正确的文件吗?

0 投票
0 回答
1512 浏览

pocketsphinx - 使用 PocketSphinx 进行音素识别

我需要 Windows 8 桌面上麦克风的实时音素识别。所以我关注了http://cmusphinx.sourceforge.net/wiki/phonemerecognition并从 VS2013 中的颠覆源构建了 pocketsphinx_continuous。以管理员身份在命令行中运行它:

在最后的 INFO 行 Windows 8 抛出此错误:

在此处输入图像描述

PocketSphinx 调试输出或我的命令行选项有什么问题吗?还是纯粹的 Windows 问题?我注意到这个文件夹:/bin/Release/Win32。我的 Windows 8 在英特尔 NUC 上是 64 位的。Sphinxbase.dll 是在 Debug 模式下从 subversion 编译的,而 PacketSphinx 只有 Release 模式。

我还在某处读到音素计时信息可用 - 如何获得它?

补充:按照 Nikolay 的建议,使用这些参数,我消除了错误,但没有得到音素:

获取音素输出的正确命令行参数集是什么?

0 投票
1 回答
637 浏览

voice-recognition - 语音识别将单词拆分为音素级别

我正在考虑为我的母语开发语音识别软件,我正在考虑为此使用 CMUSphinx-4。有一个 CMU 字典文件,其中包含将原始单词拆分映射到其音素边界的英语单词。例如, ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ] 我无法理解这背后的逻辑,我想为这种单词对话开发一种算法。如果有人知道这种转换的算法或这种分裂是如何发生的,请与我分享。

0 投票
1 回答
838 浏览

python - 将文本解析为音素的规则的 Python 模式匹配

我有一组规则可用于将文本转换为一组音素。应用这些规则将导致如下转换:

我想创建一个可以应用于文本的函数,并使用转换规则返回与该文本对应的音素。

一条规则由几个部分组成。第一部分是正在考虑的文本标记。第二部分是在考虑的标记之前找到的文本标记。第三部分是在考虑的token之后找到的text token。第四部分是应该导致转换的适当音素。规则可以用以下方式编写,不同的部分用斜线分隔:

给定这种形式的规则,将它们应用于文本字符串的好方法是什么?我想尝试构建一个可以解析文本以查找规则匹配的函数。


规则如下:


0 投票
1 回答
132 浏览

speech-recognition - 如何从 CMU Sphinx 获取 CTM 文件?

我已经使用我的语言模型将我的语音解码为音素。我需要将语音分割成句子和单词。我知道,ctm 文件会有所帮助。谁能告诉我如何为特定的语音实例生成 ctm 文件?