数组结构,结构数组和内存使用模式

我一直在阅读有关SOA的内容,我想在我正在构建的系统中尝试实现它。

我正在编写一些简单的C结构来做一些测试,但我有点困惑,现在我有一个vec3 3个不同的结构。 我将在下面显示它们,然后进一步详细说明这个问题。

 struct vec3 { size_t x, y, z; }; struct vec3_a { size_t pos[3]; }; struct vec3_b { size_t* x; size_t* y; size_t* z; }; struct vec3 vec3(size_t x, size_t y, size_t z) { struct vec3 v; vx = x; vy = y; vz = z; return v; } struct vec3_a vec3_a(size_t x, size_t y, size_t z) { struct vec3_a v; v.pos[0] = x; v.pos[1] = y; v.pos[2] = z; return v; } struct vec3_b vec3_b(size_t x, size_t y, size_t z) { struct vec3_b v; vx = (size_t*)malloc(sizeof(size_t)); vy = (size_t*)malloc(sizeof(size_t)); vz = (size_t*)malloc(sizeof(size_t)); *(vx) = x; *(vy) = y; *(vz) = z; return v; } 

这就是三种vec3的声明。

 struct vec3 v = vec3(10, 20, 30); struct vec3_a va = vec3_a(10, 20, 30); struct vec3_b vb = vec3_b(10, 20, 30); 

用printf打印出地址我得到如下值:

 size of vec3 : 24 bytes size of vec3a : 24 bytes size of vec3b : 24 bytes size of size_t : 8 bytes size of int : 4 bytes size of 16 int : 64 bytes vec3 x:10, y:20, z:30 vec3 x:0x7fff57f8e788, y:0x7fff57f8e790, z:0x7fff57f8e798 vec3a x:10, y:20, z:30 vec3a x:0x7fff57f8e768, y:0x7fff57f8e770, z:0x7fff57f8e778 vec3b x:10, y:20, z:30 vec3b x:0x7fbe514026a0, y:0x7fbe51402678, z:0x7fbe51402690 

我做的最后一件事是创建一个包含10个struct vec3_b的数组,并打印出返回这些值的地址。

  struct vec3_b vb3[10]; for(int i = 0; i < 10; i++) { vb3[i] = vec3_b(i, i*2, i*4); } index:0 vec3b x:0x7fbe514031f0, y:0x7fbe51403208, z:0x7fbe51403420 index:1 vec3b x:0x7fbe51403420, y:0x7fbe51403438, z:0x7fbe51403590 index:2 vec3b x:0x7fbe51403590, y:0x7fbe514035a8, z:0x7fbe514035c0 index:3 vec3b x:0x7fbe514035c0, y:0x7fbe514035d8, z:0x7fbe514035f0 index:4 vec3b x:0x7fbe514035f0, y:0x7fbe51403608, z:0x7fbe51403680 index:5 vec3b x:0x7fbe51403680, y:0x7fbe51403698, z:0x7fbe514036b0 index:6 vec3b x:0x7fbe514036b0, y:0x7fbe514036c8, z:0x7fbe514036e0 index:7 vec3b x:0x7fbe514036e0, y:0x7fbe514036f8, z:0x7fbe51403710 index:8 vec3b x:0x7fbe51403710, y:0x7fbe51403728, z:0x7fbe51403740 index:9 vec3b x:0x7fbe51403740, y:0x7fbe51403758, z:0x7fbe51403770 

问题:

  1. 我的struct vec3_b的实现是设置数组struct vec3_b的正确方法吗?

  2. 由于vec_3b结构大24字节,我可以在1个现代cpu的缓存行中加上2加12个额外字节?

  3. 如果我的vec3_b是进行SoA设置的正确方法,我在寻址方面遇到了一些麻烦,我将10个vec3_b放在一起。

查看hex值及其十进制表示,我看不到任何模式让我相信我的设置不正确。

  ---------------x-----------------|----------------y-----------------|----------------z-----------------| 0| 0x7fbe514031f0 : 140455383675376 | 0x7fbe51403208 : 140455383675400 | 0x7fbe51403420 : 140455383675936 1| 0x7fbe51403420 : 140455383675936 | 0x7fbe51403438 : 140455383675960 | 0x7fbe51403590 : 140455383676304 2| 0x7fbe51403590 : 140455383676304 | 0x7fbe514035a8 : 140455383676328 | 0x7fbe514035c0 : 140455383676352 

  1. 我想不出vec_3b是个好主意的场合。

  2. 请注意,您还必须为指向的指针找到24字节数据的空间,并且它可能不会与结构本身连续,因此您可能只是将有效缓存大小减少了2倍。 vec3vec_3a 。 每个malloc()都有一个最小的大小; 在64位计算机上,通常至少为16个字节。 因此,对于三个指向vec_3b结构中的值的三个单独分配,需要至少48个其他字节用于支持数据(加上结构本身的24个)。 这不适合单个缓存行; 它不能保证被放置,以便它适合2个缓存行。

  3. 不适用 – 问题是基于错误的假设。

1&3:不,你的vec3_b 不是数组结构设置。

你正在做的是拥有多个结构,每个结构都有一个64位指针,指向64位数据。

使用struct-of-arrays,可以创建一个struct,并且它有一些可变大小的数组。

所以第10个x值将是mystruct.x[9] ,而不是mystruct[9].x[0]

关键是要连续存储所有x值,因此可以使用movdqu / _mm_loadu_si128加载多个x值。 如果您正在使用SIMD,请选择支持所需值范围的最小元素宽度。 与32位元素相比,使用64位元素可将吞吐量降低一半。 您的代码将一次处理128b,如果它们是半宽的,则是两倍的元素。