“phoneme”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1704 浏览

java - 使用 Sphinx4 将单词转换为语音发音

我正在尝试实现英语单词到音素单词的翻译，以创建 CMUSphinx 的语言模型。现在我正在使用以下工具来实现单词翻译链接

例如，如果我给一个文本文件作为输入，其中包含以下单词，它将被翻译如下

但我想使用 Java 动态地执行此操作。是否有任何 API 或库可以实现这一点。我不想重新发明轮子。或者其他一些具有我可以使用的库的编程语言。

2014-10-02T06:07:13.450

0 投票

2 回答

3720 浏览

python - 估计两个词之间的音素相似度

我正在使用卡内基梅隆大学发音词典在 Python 中检测押韵，并且想知道：如何估计两个单词之间的音素相似度？换句话说，是否有一种算法可以识别“手”和“计划”比“手”和“薯条”更接近押韵的事实？

一些背景：起初，如果两个单词的主要重读音节和所有后续音节相同，我愿意说两个单词押韵（如果你想在 Python 中复制，则为 c06d ）：

如果我再跑

我可以看到手和计划听起来非常相似。我可以自己估计这种相似性，但我想我应该问：是否有复杂的算法可以将数学值与这种程度的声音（或听觉）相似性联系起来？也就是说，可以使用哪些算法或程序包来数学化两个单词之间的音素相似度？我意识到这是一个很大的问题，但如果其他人可以就这个问题提供任何建议，我将不胜感激。

python algorithm nlp linguistics phoneme

2014-10-20T21:02:14.827

0 投票

0 回答

158 浏览

c# - Richtextbox 的编码对于显示音素似乎是错误的

我对 C# 编程很陌生，但我正在尝试将纯文本转换为语音表示。我使用PhonemeReached 事件转换纯文本并通过e.Phoneme 调用它们。（见下面的代码）。

我在富文本框中返回 e.Phoneme 的结果，但它只写乱码（见下图）。这感觉像是一个编码问题，我想知道你对如何解决这个问题的看法。

http://imgur.com/KFN4E5T

更新：正如评论中所说，Jalkar 设法在 win7 上工作。当我在 Windows 7 上测试我的应用程序时，我实际上得到了一个类似音素的字符串。但是，当解码为 ASCII 时，它表示乱码。（到目前为止，我还无法掌握如何将其转换为通用电话机）。其次，正如 Hans Passant 所说，屏幕截图中乱码的 ASCII 是 American Phone 集的索引（参见他的链接）。然而，奇怪的是，Win7 和 Win8 都提供了完全不同的结果。

在下面的屏幕截图中，Win7 上的结果：http: //imgur.com/aTxf5OE

在此屏幕截图中，Win8 上的结果：imgur.com/crAR5HV

如果有人知道如何在 c# 中使用 Microsoft 的 IPA 到 UPS，我很想听听。

c#character-encoding phonetics phoneme

2015-05-13T08:48:29.933

0 投票

1 回答

217 浏览

python - categorizing short audio samples

I have a small number of similar types of sounds (I shall refer to these as DB_sounds) to which I need to match a recording (Rec_sounds). Each Rec_sound is short and unique and needs to be matched to its corresponding DB_sound. How do I go about matching them?

To illustrate my problem, consider the following:
Bob, with a deep voice in room A (with some background noise) says Ma
Alice, with high voice in room B says Eh
A Baby is learning to speak. His first word is Eh

Ma and Eh are 2 different types of DB_sounds, so I have to return 2 different results. I have several DB_sound samples of different people saying Ma and Eh to compare the Rec_sounds to

The sounds that I am dealing with are voice recordings of single syllables like la, ba, ne, eh, ma etc.

How should I tackle this?
I don't think audio fingerprinting will work (see spectrogram), and existing voice recognition software like this google api integration in python don't work since I am not trying to recognize human language, but just sounds.

I don't mind building something from the ground up, just point me in a direction you think will work, and please add plenty justification for why you think so.

Spectrograms of 8 samples of a baby saying EH enter image description here

Time domain graphs of 8 samples of a baby saying EH enter image description here

python audio signal-processing voice phoneme

2015-06-04T10:27:07.223

0 投票

3 回答

15537 浏览

python - 将声音转换为python中的音素列表

如何将任何声音信号转换为列表音素？

即从数字信号到录音的音素列表的实际方法和/或代码。
例如：

例如在哪里

我需要这个功能audio_to_phonemes

并非所有声音都是语言单词，所以我不能只使用使用谷歌 API的东西。

编辑
我不想要音频到文字，我想要音频到音素。大多数图书馆似乎没有输出。您推荐的任何库都需要能够输出组成声音的音素的有序列表。它需要在python中。

我也很想知道声音到音素的过程是如何工作的。如果不是为了实现目的，那么为了利益。

python signal-processing voice-recognition phoneme

2015-06-08T09:02:57.937

0 投票

1 回答

2760 浏览

speech-recognition - 在 pocketsphinx 中指定声学模型的路径

我想构建一个基于音素的小“对话系统”，它可以收听语音，将其转换为一串音素（无论多么错误都无关紧要），处理/存储这些并在音素级别播放它们。我的目标是使用节日/mbrola 或 espeak。都在树莓派上运行（该项目称为 babble pi）。

我在这里遵循了非常好的说明： https ://wolfpaulus.com/jounal/embedded/raspberrypi2-sr/

而且我还通过以下命令得到了很好的认可：

现在我已经在 sourceforge 网站上阅读了这篇关于音素识别的文章：http: //cmusphinx.sourceforge.net/wiki/phonemerecognition

并且还意识到显然 prealpha5 具有新的二进制格式。关于音素识别器的文章指出，基本上英语音素识别器是默认安装包的一部分，因此邀请通过以下方式对其进行测试：

我假设音素文章指的是旧版本的 (pocket-)sphinx，因为它指的是 .dmp 而不是 .bin 文件扩展名，所以我尝试了：

但我收到以下错误：

查看 en-us，实际上只有一个 .dict、一个 .lm.bin 和电话文件。和另一个包含 mdef 文件以及其他几个文件的 en-us 目录。复制它没有帮助。

那么该怎么办？卸载 prealpha5 并安装版本 4？或者我可以在某处下载正确的文件吗？

speech-recognition raspberry-pi2 pocketsphinx phoneme

2015-08-05T20:02:03.907

0 投票

0 回答

1512 浏览

pocketsphinx - 使用 PocketSphinx 进行音素识别

我需要 Windows 8 桌面上麦克风的实时音素识别。所以我关注了http://cmusphinx.sourceforge.net/wiki/phonemerecognition并从 VS2013 中的颠覆源构建了 pocketsphinx_continuous。以管理员身份在命令行中运行它：

在最后的 INFO 行 Windows 8 抛出此错误：

PocketSphinx 调试输出或我的命令行选项有什么问题吗？还是纯粹的 Windows 问题？我注意到这个文件夹：/bin/Release/Win32。我的 Windows 8 在英特尔 NUC 上是 64 位的。Sphinxbase.dll 是在 Debug 模式下从 subversion 编译的，而 PacketSphinx 只有 Release 模式。

我还在某处读到音素计时信息可用 - 如何获得它？

补充：按照 Nikolay 的建议，使用这些参数，我消除了错误，但没有得到音素：

获取音素输出的正确命令行参数集是什么？

pocketsphinx phoneme

2015-08-23T05:21:38.200

0 投票

1 回答

637 浏览

voice-recognition - 语音识别将单词拆分为音素级别

我正在考虑为我的母语开发语音识别软件，我正在考虑为此使用 CMUSphinx-4。有一个 CMU 字典文件，其中包含将原始单词拆分映射到其音素边界的英语单词。例如， ABANDONED => [ 'AH', 'B', 'AE', 'N', 'D', 'AH', 'N', 'D' ] 我无法理解这背后的逻辑，我想为这种单词对话开发一种算法。如果有人知道这种转换的算法或这种分裂是如何发生的，请与我分享。

voice-recognition cmusphinx phoneme

2015-09-06T13:11:08.773

0 投票

1 回答

838 浏览

python - 将文本解析为音素的规则的 Python 模式匹配

我有一组规则可用于将文本转换为一组音素。应用这些规则将导致如下转换：

我想创建一个可以应用于文本的函数，并使用转换规则返回与该文本对应的音素。

一条规则由几个部分组成。第一部分是正在考虑的文本标记。第二部分是在考虑的标记之前找到的文本标记。第三部分是在考虑的token之后找到的text token。第四部分是应该导致转换的适当音素。规则可以用以下方式编写，不同的部分用斜线分隔：

给定这种形式的规则，将它们应用于文本字符串的好方法是什么？我想尝试构建一个可以解析文本以查找规则匹配的函数。

规则如下：

python regex parsing speech phoneme

2015-10-25T18:19:02.300

0 投票

1 回答

132 浏览

speech-recognition - 如何从 CMU Sphinx 获取 CTM 文件？

我已经使用我的语言模型将我的语音解码为音素。我需要将语音分割成句子和单词。我知道，ctm 文件会有所帮助。谁能告诉我如何为特定的语音实例生成 ctm 文件？

speech-recognition cmusphinx phoneme srilm

2015-12-14T04:00:09.767

问题标签 [phoneme]

Reference