我的 C/C++ FFmpeg 转码器有一个奇怪的问题,它采用输入 MP4(不同的输入编解码器)并生成和输出 MP4(x264,基线和 AAC LC @44100 采样率,使用 libfdk_aac):
生成的 mp4 视频具有精细的图像 (x264),音频 (AAC LC) 也可以正常工作,但只能播放到视频的一半。
音频没有减慢,没有拉伸,也没有口吃。它只是停在视频中间。
一个提示可能是输入文件的采样率为 22050,而 22050/44100 为 0.5,但我真的不明白为什么这会使声音在一半时间后停止。我预计这样的错误会导致声音以错误的速度出现。如果我不尝试强制执行 44100 而是只使用传入的 sample_rate,一切都会正常工作。
另一个猜测是 pts 计算不起作用。但是音频听起来很好(直到它停止),我对视频部分做的完全一样,它完美地工作。“完全”,就像在相同的代码中一样,但“音频”变量替换为“视频”变量。
FFmpeg 整个过程没有报错。在从输入读取所有包完成后,我还会刷新解码器/编码器/interleaved_writing。它适用于视频,所以我怀疑我的一般方法有很多问题。
这是我的代码的功能(剥离了错误处理和其他类的东西):
AudioCodecContext 设置
outContext->_audioCodec = avcodec_find_encoder(outContext->_audioTargetCodecID);
outContext->_audioStream =
avformat_new_stream(outContext->_formatContext, outContext->_audioCodec);
outContext->_audioCodecContext = outContext->_audioStream->codec;
outContext->_audioCodecContext->channels = 2;
outContext->_audioCodecContext->channel_layout = av_get_default_channel_layout(2);
outContext->_audioCodecContext->sample_rate = 44100;
outContext->_audioCodecContext->sample_fmt = outContext->_audioCodec->sample_fmts[0];
outContext->_audioCodecContext->bit_rate = 128000;
outContext->_audioCodecContext->strict_std_compliance = FF_COMPLIANCE_EXPERIMENTAL;
outContext->_audioCodecContext->time_base =
(AVRational){1, outContext->_audioCodecContext->sample_rate};
outContext->_audioStream->time_base = (AVRational){1, outContext->_audioCodecContext->sample_rate};
int retVal = avcodec_open2(outContext->_audioCodecContext, outContext->_audioCodec, NULL);
重采样器设置
outContext->_audioResamplerContext =
swr_alloc_set_opts( NULL, outContext->_audioCodecContext->channel_layout,
outContext->_audioCodecContext->sample_fmt,
outContext->_audioCodecContext->sample_rate,
_inputContext._audioCodecContext->channel_layout,
_inputContext._audioCodecContext->sample_fmt,
_inputContext._audioCodecContext->sample_rate,
0, NULL);
int retVal = swr_init(outContext->_audioResamplerContext);
解码
decodedBytes = avcodec_decode_audio4( _inputContext._audioCodecContext,
_inputContext._audioTempFrame,
&p_gotAudioFrame, &_inputContext._currentPacket);
转换(当然,只有在解码产生帧的情况下)
int retVal = swr_convert( outContext->_audioResamplerContext,
outContext->_audioConvertedFrame->data,
outContext->_audioConvertedFrame->nb_samples,
(const uint8_t**)_inputContext._audioTempFrame->data,
_inputContext._audioTempFrame->nb_samples);
编码(当然,只有当解码产生一帧时)
outContext->_audioConvertedFrame->pts =
av_frame_get_best_effort_timestamp(_inputContext._audioTempFrame);
// Init the new packet
av_init_packet(&outContext->_audioPacket);
outContext->_audioPacket.data = NULL;
outContext->_audioPacket.size = 0;
// Encode
int retVal = avcodec_encode_audio2( outContext->_audioCodecContext,
&outContext->_audioPacket,
outContext->_audioConvertedFrame,
&p_gotPacket);
// Set pts/dts time stamps for writing interleaved
av_packet_rescale_ts( &outContext->_audioPacket,
outContext->_audioCodecContext->time_base,
outContext->_audioStream->time_base);
outContext->_audioPacket.stream_index = outContext->_audioStream->index;
写入(当然,只有在编码产生数据包的情况下)
int retVal = av_interleaved_write_frame(outContext->_formatContext, &outContext->_audioPacket);
我对导致这种行为的原因一无所知。