如何将像素结构加载到SSE寄存器中？

我有一个8位像素数据的结构：

struct __attribute__((aligned(4))) pixels { char r; char g; char b; char a; }

我想使用SSE指令来计算这些像素上的某些东西（即Paeth变换）。如何将这些像素作为32位无符号整数加载到SSE寄存器中？

使用SSE2解压缩无符号像素

好的，使用来自 SSE2整数内在函数，首先将东西加载到寄存器的低32位：

 __m128i xmm0 = _mm_cvtsi32_si128(*(const int*)&pixel);

然后首先将这些8位值解压缩到寄存器的低64位中的16位值，并将它们与0交错：

 xmm0 = _mm_unpacklo_epi8(xmm0, _mm_setzero_si128());

再次将这些16位值解压缩为32位值：

 xmm0 = _mm_unpacklo_epi16(xmm0, _mm_setzero_si128());

您现在应该在SSE寄存器的相应4个组件中将每个像素设置为32位整数。

使用SSE2解压缩带符号的像素

我刚才读到，你想要将这些值作为32位有符号整数，但我想知道[-127,127]中有符号像素的含义。但是如果您的像素值确实是负数，则使用零进行交错将不起作用，因为它将负8位数字转换为正16位数（因此将您的数字解释为无符号像素值）。负数必须用1秒而不是0秒进行扩展，但不幸的是，必须在逐个组件的基础上动态决定，SSE不是那么好。

您可以做的是比较消极性的值并使用结果掩码（幸运的是使用1...1表示真， 0...0表示假）作为interleavand，而不是零寄存器：

 xmm0 = _mm_unpacklo_epi8(xmm0, _mm_cmplt_epi8(xmm0, _mm_setzero_si128())); xmm0 = _mm_unpacklo_epi16(xmm0, _mm_cmplt_epi16(xmm0, _mm_setzero_si128()));

这将适当地延长负数1秒和正数0秒。但是，如果你的初始8位像素值可能是负数，那么这个额外的开销（可能是2-4个额外的SSE指令的forms）只是必要的，我仍然怀疑。但如果真的是这种情况，你应该考虑使用signed char over char ，因为后者具有实现定义的符号（如果这些是常见的无符号[0,255]像素值，则应该使用unsigned char ）。

替代SSE2使用轮class拆包

虽然，澄清，你不需要签名8位到32位转换，但为了完整性， 哈罗德对基于SSE2的符号扩展有另一个非常好的想法，而不是使用上面提到的基于比较版。我们首先将8位值解压缩到32位值的高字节而不是低位字节。由于我们不关心较低的部分，我们只需再次使用8位值，这使我们无需额外的零寄存器和额外的移动：

 xmm0 = _mm_unpacklo_epi8(xmm0, xmm0); xmm0 = _mm_unpacklo_epi16(xmm0, xmm0);

现在我们只需要执行并将右上角字节右移到低位字节，这对负值执行正确的符号扩展：

 xmm0 = _mm_srai_epi32(xmm0, 24);

这应该比我上面的SSE2版本更多的指令数和寄存器效率。

而且，与上述零扩展相比，单个像素的指令计数甚至应该相等（虽然在多个像素上分摊时再多指令1个）并且寄存器效率更高（由于没有额外的零寄存器），它甚至可能是如果寄存器很少，则用于无符号到符号的转换，但随后使用逻辑移位（ _mm_srli_epi32 ）而不是算术移位。

改进了SSE4的拆包

感谢哈罗德的评论，对于第一次8到32次转换，甚至有更好的选择。如果你有SSE4支持（准确的SSE4.1），它有完成从寄存器低32位的4个压缩8位值到整个寄存器中的4个32位值的完整转换的指令，两者都是有符号和无符号的8位值：

 xmm0 = _mm_cvtepu8_epi32(xmm0); //or _mm_cvtepi8_epi32 for signed 8-bit values

用SSE2打包像素

至于逆转此转换的后续操作，首先我们将带符号的32位整数打包成带符号的16位整数并使其饱和：

 xmm0 = _mm_packs_epi32(xmm0, xmm0);

然后我们使用饱和度将这些16位值打包成无符号的8位值：

 xmm0 = _mm_packus_epi16(xmm0, xmm0);

然后我们最终可以从寄存器的低32位获取像素：

 *(int*)&pixel = _mm_cvtsi128_si32(xmm0);

由于饱和度，整个过程将自动将任何负值映射到0以及大于255到255任何值，这通常用于处理彩色像素。

如果在将32位值打包回unsigned char时实际上需要截断而不是饱和，那么您需要自己执行此操作，因为SSE仅提供饱和打包指令。但这可以通过做一个简单的事情来实现：

 xmm0 = _mm_and_si128(xmm0, _mm_set1_epi32(0xFF));

就在上述包装程序之前。这应该只相当于2个额外的SSE指令，或者在许多像素上分摊时只有1个附加指令。

如何将像素结构加载到SSE寄存器中？

使用SSE2解压缩无符号像素

使用SSE2解压缩带符号的像素

替代SSE2使用轮class拆包

改进了SSE4的拆包

用SSE2打包像素

3路快速排序（C实现）

25：警告：初始化元素不是常量表达式

k中的k – =（k＆（ – k））是什么意思？

C中的gethostbyname

C宏 – 动态#include

结构类型转换

sclite（SCTK）安装，文件无法识别，文件格式无法识别，Cygwin

如何在C / C ++中释放数组

atof（）返回含糊不清的值

Not Null Terminated字符数组