我正在尝试使用 AVFoundation 创建一个进行实时视频和音频录制的应用程序。同样使用 AVAssetWriter 我将缓冲区写入本地文件。
对于CMSampleBuffer
我正在使用的视频,AVCaptureVideoDataOutputSampleBufferDelegate
输出AVCaptureSession
很简单。
对于音频CMSampleBuffer
,我正在从 AudioUnit 记录回调创建缓冲区。我计算音频缓冲区的呈现时间的方式是这样的:
var timebaseInfo = mach_timebase_info_data_t(numer: 0, denom: 0)
let timebaseStatus = mach_timebase_info(&timebaseInfo)
if timebaseStatus != KERN_SUCCESS {
debugPrint("not working")
return
}
let hostTime = time * UInt64(timebaseInfo.numer / timebaseInfo.denom)
let presentationTIme = CMTime(value: CMTimeValue(hostTime), timescale: 1000000000)
let duration = CMTime(value: CMTimeValue(1), timescale: CMTimeScale(self.sampleRate))
var timing = CMSampleTimingInfo(
duration: duration,
presentationTimeStamp: presentationTIme,
decodeTimeStamp: CMTime.invalid
)
self.sampleRate
是一个在录制开始时发生变化的变量,但大多数时候是48000
.
当CMSampleBuffers
同时获得视频和音频时,演示时间有很大的不同。
声音的 -CMTime(value: 981750843366125, timescale: 1000000000, flags: __C.CMTimeFlags(rawValue: 1), epoch: 0)
视频 -CMTime(value: 997714237615541, timescale: 1000000000, flags: __C.CMTimeFlags(rawValue: 1), epoch: 0)
这在尝试将缓冲区写入文件时会产生很大的差距。
我的问题是
- 我是否正确计算了音频缓冲区的呈现时间?如果是这样,我错过了什么?
- 如何确保音频和视频在同一时间区域内(我知道它们之间应该有微小的毫秒差异)