我正在做一个个人研究项目。
我的目标是能够识别声音并通过将其波形与数据库中的波形进行比较来识别它是否属于 IPA。我对 Mathematica、SciPy 和 PyBrain 有一定的了解。
对于第一阶段,我只使用英语(美国)拼音字母。我有一个简单的英语拼音字母测试库,是我在网上找到的。这里的诀窍是:
我想将声音文件分成对应于不同音节的波形——这将需要一个学习算法。因此,“我喜欢苹果”将被切割成构成句子的音节波形。
然后将每个波形与英国 PA 的波形进行比较。我不确定如何做这部分。我正在考虑使用 Praat 来检测波形,捕获波形图像并将其与存储在数据库中的图像分析进行比较(这很有趣)。
这里的损害是,我不知道如何让 Praat 自动生成一个波形文件,然后将它在音节之间切割成波形块。从逻辑上讲,我只会为学习算法准备测试用例并教 comp 去做。
不需要波形图像-我可以通过快速傅立叶变换来做到这一点并比较两个fft-在x%的误差范围内认为它是y音节吗?