3

我正在使用基于 Xilinx Zynq 7000 ARM 的 SoC。我正在为 DMA 缓冲区苦苦挣扎(需要帮助在 Xilinx/ARM SoC (Zynq 7000) 上映射预先保留的 **cacheable** DMA 缓冲区),所以我追求的一件事是更快的 memcpy。

我一直在考虑使用 Neon 指令和内联 asm 为 ARM 编写更快的 memcpy。无论 glibc 有什么,它都很糟糕,尤其是当我们从一个未缓存的 DMA 缓冲区复制时。

我从各种来源整合了我自己的复制功能,包括:

对我来说主要的区别是我试图从一个未缓存的缓冲区复制,因为它是一个 DMA 缓冲区,而 ARM 对缓存的 DMA 缓冲区的支持是不存在的。

所以这就是我写的:

void my_copy(volatile unsigned char *dst, volatile unsigned char *src, int sz)
{
    if (sz & 63) {
        sz = (sz & -64) + 64;
    }
    asm volatile (
        "NEONCopyPLD:                          \n"
        "    VLDM %[src]!,{d0-d7}                 \n"
        "    VSTM %[dst]!,{d0-d7}                 \n"
        "    SUBS %[sz],%[sz],#0x40                 \n"
        "    BGT NEONCopyPLD                  \n"
        : [dst]"+r"(dst), [src]"+r"(src), [sz]"+r"(sz) : : "d0", "d1", "d2", "d3", "d4", "d5", "d6", "d7", "cc", "memory");
}

我做的主要事情是省略了预取指令,因为我认为它在未缓存的内存上毫无价值。

这样做导致 glibc memcpy 的速度提高了 4.7 倍。速度从大约 70MB/秒到大约 330MB/秒。

不幸的是,这并不像缓存内存中的 memcpy 那样快,系统 memcpy 的运行速度约为 720MB/秒,Neon 版本的运行速度约为 620MB/秒(可能更慢,因为我的 memcpy 可能不进行预取)。

谁能帮我弄清楚我能做些什么来弥补这个性能差距?

我尝试了很多事情,比如一次复制更多,两次加载,然后是两次存储。我可以尝试预取只是为了证明它没用。还有其他想法吗?

4

2 回答 2

1

如果您尝试进行大型、快速的传输,缓存内存通常会胜过未缓存内存,但正如您所指出的,必须在某处管理对缓存 DMA 缓冲内存的支持,并且在 <=ARMv7 上,该位置是内核/内核-司机。

我假设您的设计有两件事:

  • 用户空间正在读取内存映射的硬件缓冲区
  • 从 FGPA 到 CortexA9 VIC/GIC 有某种信号/事件/中断,当有新缓冲区可供读取时,它会告诉 CortexA9。

在高速缓存行边界上对齐 DMA 缓冲区,并且不要在 DMA 缓冲区的末端和下一个高速缓存行之间放置任何东西。每当 FPGA 向 CPU 发出缓冲区已准备就绪的信号时,使高速缓存无效。

我不认为 A9 有一种机制可以同时控制所有内核和层上的缓存线,因此您可能希望将执行此操作的程序固定到一个内核,以便您可以跳过维护另一个内核上的缓存。

于 2021-01-05T15:10:32.080 回答
0

您可以尝试使用缓冲内存而不是非缓存内存。

于 2016-09-14T08:54:47.843 回答