nlp - 如何计算音频文件中的语音音节数？

Question

我有许多音频文件干净，只有普通话的语音。我需要估计每个文件中有多少个音节。是否有适用于 OS X、Windows 或 Linux 的工具可以估算这些？

sample01.wav 15
sample02.wav 8
sample03.wav 5
sample04.wav 1
sample05.wav 18

由于文件很多，因此首选命令行或批处理软件，例如：

$ application sample01.wav
15

使用语音到文本的解决方案，然后计算存在的字符数将是合适的。

score 12 · Accepted Answer

语音的自动分割是一个活跃的科学领域，这意味着没有完美的方法。

2009 年，de Jong 和 Wempe 提出了一种使用Praat自动检测人类语音信号中的音节的方法。这种方法与人为分割相比，效果很好，并已在许多第三方科学研究中得到应用。您可以在他们的科学文章 ( pdf ) 中找到对该方法的详细描述，以及对先前提出的方法的历史观点。Praat 脚本本身和一些教程可以在专门的网站 ( www-speechrate ) 上找到。

您可能还对Harma开发的已在 Matlab 中实现的另一种切分算法感兴趣（Harma Syllable Segmentation）

score 1 · Accepted Answer

您可以使用共振峰来确定这一点。每个音节应该对应一个共振峰。以下是有关共振峰的更多信息：

https://en.wikipedia.org/wiki/Formants

score 0 · Accepted Answer

0

您可能对此感兴趣

http://sites.google.com/site/speechrate/

于 2013-11-10T14:09:43.510 回答

score 0 · Accepted Answer

您的问题需要对 Speech to Text 的特别关注和解决方案。我真的怀疑任何免费的开源库，容易获得并服务于目的。

我使用了一个但用于相反目的的“文本到语音”。虽然这不是一个免费的图书馆，但我很乐意帮助谷歌“annosoft lipsync”......

http://www.annosoft.com/lipsync-sdks

该库也可用于 SDK 评估......

nlp - 如何计算音频文件中的语音音节数？

4 回答 4

Related

Reference