我正在尝试使用 Neon 指令提高用 ARM 汇编程序编写的一段代码的性能。
对于测试和计算,我使用这个计算器: http: //pulsar.webshaker.net/ccc/sample-706454b3
我注意到在“n.34-0 1c n0”行突然霓虹灯单元似乎必须等待(?)10个周期。这可能是什么原因,或者它只是计算器中的一个错误?
我还需要一些关于如何提高 ARM/Neon Assembler 性能的一般信息。
目标是 ARM Cortex-A9。对于编译,我使用带有内联汇编程序的最新 android-ndk。谢谢你。