Websocket数据取消屏蔽/多字节xor

websocket规范将unmasking数据定义为

j = i MOD 4 transformed-octet-i = original-octet-i XOR masking-key-octet-j

其中mask是4个字节长，每个字节必须应用unmasking。

有没有办法更有效地做到这一点，而不仅仅是循环字节？

运行代码的服务器可以假定为Haswell CPU，OS是内核> 3.2的Linux，因此SSE等都存在。编码是在C语言中完成的，但如果需要，我也可以执行asm。

我试图自己查找解决方案，但是无法弄清楚是否有任何SSE1-5 / AVE /中的任何一个都有适当的指令（无论多少扩展 – 多年来失去了很多轨道）

非常感谢你！

编辑：重新阅读规范几次之后，似乎它实际上只是用掩码字节对数据字节进行异或，我可以一次做8个字节，直到最后几个字节。问题仍然存在，因为我认为可能仍然有一种方法可以使用SSE等来优化它（可能一次只处理16个字节？让进程执行for循环？…）

是的，您可以使用SSE2在一条指令中XOR 16字节，或者一次使用AVX2（Haswell和更高版本）32字节。

SSE2：

 #include  // SSE2 instrinsics __m128i v, v_mask; uint8_t *buff; // buffer - must be 16 byte aligned for (int i = 0; i < N; i += 16) // note that N must be multiple of 16 { v = _mm_load_si128(&buff[i]); // load 16 bytes v = _mm_xor_si128(v, v_mask); // XOR with mask v = _mm_store_si128(&buff[i], v); // store 16 masked bytes }

AVX2：

 #include  // AVX2 intrinsics __m256i w, w_mask; uint8_t *buff; // buffer - must be 16 byte aligned, // and preferably 32 byte aligned for (int i = 0; i < N; i += 32) // note that N must be multiple of 32 { w = _mm256_load_si256(&buff[i]); // load 32 bytes w = _mm256_xor_si256(w, w_mask); // XOR with mask w = _mm256_store_si256(&buff[i], w); // store 32 masked bytes }

Websocket数据取消屏蔽/多字节xor

SSE对冲浮标练习

使用AVX与NaN比较

为什么AVX-256 VMOVAPS指令只复制四个单精度浮点而不是8？

AVX将64位整数转换为64位浮点数

AVX标量操作要快得多

使用单个AVX内在函数反转包含双精度的AVX寄存器

C风格演员与内在演员

一个目标文件中的代码对齐正在影响另一个目标文件中的函数的性能

乘以int64_t数组的最快方法？

使用SSE / AVX进行OpenMP减少