我打算做什么:
我想发展英语口音(无需专业培训)。
我的推理背后的一组公理和执行摘要:
以下是故意过度简化的,对此感到抱歉。我试图让问题简短。
第 1 部分:了解学习的运作方式。
目前我认为,布罗卡区和韦尼克区必须知道语言,而现有语音字母表的肌肉记忆将构建语音。口音只是通过语音字母同化随着时间自然形成。
使用谷歌我发现,语音阴影可以潜在地用于音标同化。另一方面,肌肉记忆可以通过重复动作轻松训练。这是最有效的,如果一个人是 23-24 岁并且他/她手上有很多无法解释的时间,因为失去注意力会显着降低有效的学习曲线梯度。这种程序性记忆可能会被优化为以设计的睡眠模式在记忆中刷新。
第 2 部分:设计行为模式
- 寻找一个流利的演讲者,我想听起来像他的口音。
- 区分目标重音音素和音素。
- 训练肌肉记忆以产生目标口音。
第 3 部分:找到一个流利的演讲者,我想听起来像他的口音。
Youtube 是一个强大的免费资源。示例音频,我很难挑选:
Someone Like You
- 高清的阿黛尔(封面)。
它不打扰我,它是高音调的女声。
第 4 部分:区分目标重音音素和音素。
这不是一项简单的任务——识别和判断语音电话是否正确。以及人类说出有形文字的正确程度。实际上它看起来很复杂,我不会费心让它自动化,只是使用IPA作为基线。
这是上面示例音频的美国国际音标中第一首带有单词重音的诗篇:
无侵犯版权之意。并且图像是使用upodn创建的(替代方法:photransedit)。
第 5 部分:训练肌肉记忆以产生目标口音。
虽然尝试模仿和存档同步很有趣,但我更喜欢构建一个工具,将单词提取为音频文件。所以我可以使用 winamp 或 ipod 循环播放我想要的单词。
我想,我可以为此使用 MS Expression Encoder。
问题
如果给定一个音频文件(例如 wav 格式,大小 < 32mb)并且它是等效的文本(有限 nr 个单词,例如 2000),那么如何将其拆分为多个文件,每个文件包含 1 个单词。Word 可以包含一些多余的空格,并且边界检查可以由用户批准。如果它不准确,那么最好的方法是获得对单词边界的良好估计。
主要目的是减少我会做的工作,如果这将是手动完成的话。