我正在做一个项目,我必须使用 java 从音频 .wav 文件中提取人声。
音频 .wav 文件可能有 3 到 4 种声音,例如狗、猫、音乐和人。我将不得不识别人声,然后从音频 .wav 文件中提取该部分。
我正在使用FFT.java和Complex.java。
现在我编写了一个 AudioFileReader 类,它从硬盘驱动器读取 audio.wav 文件,然后将其转换为字节数组。然后使用上面提到的 FFT.java 和 Complex.java 来应用 FFT.fft(bytesArray),这给了我 Complex 数组作为回报;
现在的问题是如何从返回的 Complex 数组中提取人类声音字节模式......有谁知道我如何能够做到这一点?
编辑:我们假设一个非常简单的 audio.wav 文件。例如,猫的声音然后沉默,人的声音然后沉默,狗的声音然后沉默等。没有声音的混合。