c# - 词边界的音频挖掘

Question

我打算做什么：

我想发展英语口音（无需专业培训）。

我的推理背后的一组公理和执行摘要：

以下是故意过度简化的，对此感到抱歉。我试图让问题简短。

第 1 部分：了解学习的运作方式。

目前我认为，布罗卡区和韦尼克区必须知道语言，而现有语音字母表的肌肉记忆将构建语音。口音只是通过语音字母同化随着时间自然形成。

使用谷歌我发现，语音阴影可以潜在地用于音标同化。另一方面，肌肉记忆可以通过重复动作轻松训练。这是最有效的，如果一个人是 23-24 岁并且他/她手上有很多无法解释的时间，因为失去注意力会显着降低有效的学习曲线梯度。这种程序性记忆可能会被优化为以设计的睡眠模式在记忆中刷新。

第 2 部分：设计行为模式

寻找一个流利的演讲者，我想听起来像他的口音。
区分目标重音音素和音素。
训练肌肉记忆以产生目标口音。

第 3 部分：找到一个流利的演讲者，我想听起来像他的口音。

Youtube 是一个强大的免费资源。示例音频，我很难挑选：声音的 Someone Like You- 高清的阿黛尔（封面）。

它不打扰我，它是高音调的女声。

第 4 部分：区分目标重音音素和音素。

这不是一项简单的任务——识别和判断语音电话是否正确。以及人类说出有形文字的正确程度。实际上它看起来很复杂，我不会费心让它自动化，只是使用IPA作为基线。

这是上面示例音频的美国国际音标中第一首带有单词重音的诗篇：

无侵犯版权之意。并且图像是使用upodn创建的（替代方法：photransedit）。

第 5 部分：训练肌肉记忆以产生目标口音。

虽然尝试模仿和存档同步很有趣，但我更喜欢构建一个工具，将单词提取为音频文件。所以我可以使用 winamp 或 ipod 循环播放我想要的单词。

我想，我可以为此使用 MS Expression Encoder。

问题

如果给定一个音频文件（例如 wav 格式，大小 < 32mb）并且它是等效的文本（有限 nr 个单词，例如 2000），那么如何将其拆分为多个文件，每个文件包含 1 个单词。Word 可以包含一些多余的空格，并且边界检查可以由用户批准。如果它不准确，那么最好的方法是获得对单词边界的良好估计。

主要目的是减少我会做的工作，如果这将是手动完成的话。

score 1 · Accepted Answer

检测单词边界是一项非常复杂的任务！我不知道您是否对此进行了更多研究，但请参阅 Saffran 等人 (1996)。分词：分配线索的作用。对于许多语言，还有许多语言生产的“语料库”，因此我不会使用新人，而是研究语言学文献中关于检测单词边界的工作。

score 0 · Accepted Answer

首先，我将通过对其运行 FFT 将信号从时域转换为频域。这可能允许您将文本中的某些辅音与 fft 中的宽带噪声相匹配。这里的问题是您不是要进行完整的语音识别，而是要找到信号与文本的最佳匹配。（我在大学时为突出显示的文档图像做了类似的事情——不需要使用 OCR，因为我已经有了文本）。我的猜测是，寻找幅度的下降不会对你有太大帮助，因为有些词会相互碰撞。

这是我第一次尝试的方法：

分析文本/国际音标中以辅音开头的单词，这些单词会在频谱中产生易于识别的模式。
从高阈值开始，检测模式的实例。
降低阈值，直到获得正确数量的实例并且它们之间的相对距离与您对文本距离的估计相匹配。
（如果可能，请在此处获取用户对分割点的验证）
这应该为您提供一组有希望的简短短语和频谱块。
使用另一种特征检测方法将这些块拆分为单词。
继续，直到你只有一个单词。

我确信它可以被概括，但这就是我尝试的方式。