4

我正在尝试使用 pyaudio 制作语音掩蔽器。以我现在的设置方式,我唯一要做的就是输入声音,即时更改音高,然后将其分块。第一部分和最后一部分正在工作,我想我已经接近改变音高了……强调“思考”。

不幸的是,我不太熟悉我正在使用的数据类型以及如何以我想要的方式操作它。我已经浏览了 audioop 文档,但没有找到我需要的东西(认为有些东西我肯定可以在那里使用)。我想我要问的是...

这些音频帧中的数据是如何格式化的。

我怎样才能改变框架的间距(如果可以的话),或者它是否接近那样工作?

import pyaudio
import sys
import numpy as np
import wave
import audioop
import struct

chunk = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 1
RATE = 41000
RECORD_SECONDS = 5

p = pyaudio.PyAudio()

stream = p.open(format = FORMAT,
                channels = CHANNELS,
                rate = RATE,
                input = True,
                output = True,
                frames_per_buffer = chunk)

swidth = 2

print "* recording"



while(True):

    data = stream.read(chunk)
    data = np.array(wave.struct.unpack("%dh"%(len(data)/swidth), data))*2

    data = np.fft.rfft(data)
    #MANipulation
    data = np.fft.irfft(data)



    stream.write(data3, chunk)




print "* done"

stream.stop_stream()
stream.close()
p.terminate()
4

2 回答 2

5

在行之后irfft和行之前stream.write,您需要通过调用将数据转换回 16 位整数struct.pack

data = np.fft.irfft(data)
dataout = np.array(data*0.5, dtype='int16') #undo the *2 that was done at reading
chunkout = struct.pack("%dh"%(len(dataout)), *list(dataout)) #convert back to 16-bit data
stream.write(chunkout)
于 2011-06-13T21:00:08.957 回答
3

要更改音高,您必须对多个帧执行FFT,然后按频率移动数据(将数据移动到不同的频率区间)并执行逆 FFT。

如果您不介意声音片段在降低音高时变长(或在增加音高时变高),您可以重新采样帧。例如,您可以将每帧加倍(在流中插入每帧的副本),从而降低播放速度和音调。然后,您可以通过改进重采样算法以使用某种插值和/或过滤来提高音频质量。

于 2011-06-13T07:49:43.653 回答