5

我在 Nexus 5 上运行的Grafika MediaCodec 示例代码中执行了MoviePlayer.java的一些简单计时。我在这些位置放置了一条日志语句:

在第 203 行之前

decoder.queueInputBuffer

在第 244 行之后

decoder.dequeueOutputBuffer

我使用presentationTimeUs.

以下是 logcat 的摘录:

01-29 10:56:43.295: I/Grafika(21286): queueInputBuffer index/pts, 2,0
01-29 10:56:43.305: I/Grafika(21286): queueInputBuffer index/pts, 0,33100
01-29 10:56:43.315: I/Grafika(21286): queueInputBuffer index/pts, 3,66466
01-29 10:56:43.325: I/Grafika(21286): queueInputBuffer index/pts, 1,99833
01-29 10:56:43.325: I/Grafika(21286): queueInputBuffer index/pts, 2,133200
01-29 10:56:43.335: I/Grafika(21286): queueInputBuffer index/pts, 0,166566
01-29 10:56:43.345: I/ATSParser(21286): discontinuity on stream pid 0x1011
01-29 10:56:43.345: I/ATSParser(21286): discontinuity on stream pid 0x1100
01-29 10:56:43.345: I/Grafika(21286): queueInputBuffer index/pts, 3,199933
01-29 10:56:43.345: I/Grafika(21286): dequeueOutputBuffer index/pts, 7,0
01-29 10:56:43.345: I/Grafika(21286): queueInputBuffer index/pts, 1,300033
01-29 10:56:43.355: I/Grafika(21286): dequeueOutputBuffer index/pts, 6,33100
01-29 10:56:43.385: I/Grafika(21286): queueInputBuffer index/pts, 2,333400
01-29 10:56:43.385: I/Grafika(21286): dequeueOutputBuffer index/pts, 5,66466
01-29 10:56:43.415: I/Grafika(21286): queueInputBuffer index/pts, 0,366766
01-29 10:56:43.415: I/Grafika(21286): dequeueOutputBuffer index/pts, 4,99833
01-29 10:56:43.445: I/Grafika(21286): queueInputBuffer index/pts, 3,400133
01-29 10:56:43.445: I/Grafika(21286): dequeueOutputBuffer index/pts, 3,133200

我发现从第一个输入缓冲区排队到相应的输出缓冲区出队的时间差是 50 毫秒。对于硬件加速解码来说,这似乎需要很多时间。

有没有办法减少这种延迟?

4

1 回答 1

5

我认为您看到了第一帧独有的一些效果。我重复了你的实验,进一步增加了doRender = false在第 244 行附近的强制,以避免用于管理输出帧速率的睡眠调用。我懂了:

01-29 14:05:36.552  9115  9224 I Grafika : queueInputBuffer index/pts, 2,0
01-29 14:05:36.562  9115  9224 I Grafika : queueInputBuffer index/pts, 0,66655
01-29 14:05:36.572  9115  9224 I Grafika : queueInputBuffer index/pts, 3,133288
01-29 14:05:36.582  9115  9224 I Grafika : queueInputBuffer index/pts, 1,199955

01-29 14:05:36.602  9115  9224 I Grafika : dequeueOutputBuffer index/pts, 4,0
01-29 14:05:36.602  9115  9224 I Grafika : dequeueOutputBuffer index/pts, 3,66655
01-29 14:05:36.602  9115  9224 I Grafika : dequeueOutputBuffer index/pts, 2,133288
01-29 14:05:36.612  9115  9224 I Grafika : dequeueOutputBuffer index/pts, 4,199955

(为清楚起见,去除了多余的线条。)这证实了您的结果。请注意,虽然 pts=0 的输入和输出之间存在 50 毫秒的延迟,但随后的输出帧几乎立即可用。我使用的视频是“camera-test.mp4”(720p 相机输出)。

要了解发生这种情况的原因,请查看日志中的其他内容以及它出现的位置。从第一个queueInputBuffer日志行开始,计算出现在该行和第一dequeueOutputBuffer行之间的日志数。我数了一下我的 OMX-VDEC-1080P 的大约 60 行输出。现在计算输出缓冲区开始出现后出现了多少 OMX-VDEC 行。在视频结束之前我什么都看不到。

视频解码器显然推迟了一些昂贵的初始化,直到数据可用。那么下一个问题是……它需要多少数据?提交第二帧(pts==66633)后,我添加了 500ms 的睡眠。结果:两帧提交,500ms暂停,两帧提交,一大堆OMX-VDEC日志。因此,解码器似乎需要几帧才能开始。

这表明我们可以通过快速输入前几帧来减少启动延迟。为了测试这一点,我将其更改TIMEOUT_USEC为零,因此它会快速响应但会烧毁 CPU。新的日志输出(你的日志,没有睡眠,没有渲染):

01-29 14:29:04.542 10560 10599 I Grafika : queueInputBuffer index/pts, 0,0
01-29 14:29:04.542 10560 10599 I Grafika : queueInputBuffer index/pts, 2,66633
01-29 14:29:04.542 10560 10599 I Grafika : queueInputBuffer index/pts, 3,133288
...
01-29 14:29:04.572 10560 10599 I Grafika : dequeueOutputBuffer index/pts, 4,0
01-29 14:29:04.572 10560 10599 I Grafika : dequeueOutputBuffer index/pts, 3,66633
01-29 14:29:04.572 10560 10599 I Grafika : dequeueOutputBuffer index/pts, 2,133288

通过快速输入初始帧,我们将初始延迟从 50 毫秒减少到 30 毫秒。

(注意所有时间戳如何以“2”结尾?用于日志时间的计时器似乎四舍五入到最接近的 10 毫秒,因此实际时间增量可能略有不同。)

我们缓慢输入初始帧的原因是我们试图在每个输入缓冲区提交后从解码器中排出输出,等待 10 毫秒以等待从未出现的输出。我最初的想法是,我们想要等待一个或两个超时 dequeueInputBuffer() dequeueOutputBuffer()不能同时等待 - 可能首先使用输入超时和快速轮询输出,然后在我们用完时切换到输出超时输入饲料。(就此而言,输入的初始超时可能是 -1,因为我们知道在第一个输入缓冲区排队之前不会发生任何事情。)

我不知道是否有办法进一步减少延迟。

于 2014-01-29T22:49:18.347 回答