我正在尝试改进在 ARM cortex-a8 处理器上运行的图像处理项目。
我正在从内存中访问 8 位灰度图像数据。在我的函数中,现在我正在逐字节访问单个像素值。
我认为通过使用 NEON,我可以通过一次从内存中访问 128/8 = 16 个字节来改进这一点,然后在我的函数中使用它们。但是在运行更改后的版本时,我发现这实际上比逐字节访问要花费更多时间。我认为我使用 NEON 的获取正在成为一个瓶颈,花费的时间比我的计算时间还多。
ARM Cortex-A8 的数据总线大小是多少?在一次内存提取中从内存中访问了多少字节?