我使用pyaudio
从站点获取的示例从通过计算机的麦克风(2 个通道)记录的数据中读取字节缓冲区。
import pyaudio
import wave
CHUNK = 1024
FORMAT = pyaudio.paInt16
CHANNELS = 2
RATE = 44100
RECORD_SECONDS = 5
WAVE_OUTPUT_FILENAME = "output.wav"
p = pyaudio.PyAudio()
stream = p.open(format=FORMAT,
channels=CHANNELS,
rate=RATE,
input=True,
frames_per_buffer=CHUNK)
print("* recording")
frames = []
for i in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
data = stream.read(CHUNK)
frames.append(data)
print("* done recording")
print frames
frames
看起来像这样:
['\x00\xfd\xff\xff.....\xfc\xff\xff', '\xff\xfc\xff\xff......\xfc\xff\xff', ... ]
或者如果我改变CHUNK = 1
:
['\x00\xfd\xff\xff', '\xff\xfc\xff\xff', '\x00\xfd\xcc\xcf']
虽然当然要长得多。我怀疑每个通道的字节都是交错的,所以我认为我需要将它们分成两对。
我想要的是这样的数组:
np.array([
[123, 43],
[3, 433],
[43, 66]
])
其中第一列是来自第一个通道的值,第二列是来自第二个通道的值。我该如何解释这些编码值(CHUNK
设置为合理的值,如 1024)?
更新:
我很困惑。我使用下面将format
字符串列表更改为由空格分隔的十六进制值的单个字符串,但它们的数量似乎是奇数......如果有两个值,每个通道一个(将是偶数):
fms = ''.join(frames)
fms_string = ''.join( [ "%02X " % ord( x ) for x in fms ] ).strip()
fms_list = fms_string.split(" ")
print len(fms_list) # this prints an ODD number...
更新 2:
我尝试了一条更简单的路线并尝试了这个:
import array
fstring = ''.join(frames)
wave_nums = array.array('h', fstring) # this correctly returns list of ints!
print len(wave_nums)
我尝试了不同的录制时间并得到以下结果(令人困惑的结果):
RECORD_SECONDS = 2 ---> len(wave_nums) is 132300 (132300 / 44100 = 3 seconds of frames)
RECORD_SECONDS = 4 ---> len(wave_nums) is 308700 (308700 / 44100 = 7 seconds of frames)
RECORD_SECONDS = 5 ---> len(wave_nums) is 396900 (396900 / 44100 = 9 seconds of frames)
这意味着我得到的帧数与2*(number of seconds recording) - 1
秒数一致……这怎么可能?