快速ARM NEON memcpy

我想在ARMv7核心上复制图像。 天真的实现是每行调用memcpy。

for(i = 0; i < h; i++) { memcpy(d, s, w); s += sp; d += dp; } 

我知道以下内容

 d, dp, s, sp, w 

都是32字节对齐,所以我的下一个(仍然非常天真)实现是沿着的

 for (int i = 0; i < h; i++) { uint8_t* dst = d; const uint8_t* src = s; int remaining = w; asm volatile ( "1: \n" "subs %[rem], %[rem], #32 \n" "vld1.u8 {d0, d1, d2, d3}, [%[src],:256]! \n" "vst1.u8 {d0, d1, d2, d3}, [%[dst],:256]! \n" "bgt 1b \n" : [dst]"+r"(dst), [src]"+r"(src), [rem]"+r"(remaining) : : "d0", "d1", "d2", "d3", "cc", "memory" ); d += dp; s += sp; } 

在大量迭代中,这比memcpy快〜150%(在不同的图像上,因此不利用缓存)。 我觉得这应该没有达到最佳状态,因为我还没有使用预加载,但是当我这样做时,我似乎只能使性能大大降低。 这里有人有任何见解吗?

ARM对此有一个很好的技术说明。

http://infocenter.arm.com/help/index.jsp?topic=/com.arm.doc.faqs/ka13544.html

你的表现肯定会因微观架构的不同而有所不同,ARM的说明是在A8上,但我认为它会给你一个不错的想法,而底部的摘要是对各种优缺点的一个很好的讨论,不仅仅是常规数字,例如哪种方法导致寄存器使用量最少等。

是的,正如另一位评论者提到的那样,预取很难做到正确,并且对于不同的微架构会有不同的工作方式,具体取决于缓存的大小和每条线的大小以及缓存的一堆其他细节设计。 如果不小心,你最终可能会挣扎所需的线条。 我建议避免使用便携式代码。