Websocket数据取消屏蔽/多字节xor

websocket规范将unmasking数据定义为

j = i MOD 4 transformed-octet-i = original-octet-i XOR masking-key-octet-j 

其中mask是4个字节长,每个字节必须应用unmasking。

有没有办法更有效地做到这一点,而不仅仅是循环字节?

运行代码的服务器可以假定为Haswell CPU,OS是内核> 3.2的Linux,因此SSE等都存在。 编码是在C语言中完成的,但如果需要,我也可以执行asm。

我试图自己查找解决方案,但是无法弄清楚是否有任何SSE1-5 / AVE /中的任何一个都有适当的指令(无论多少扩展 – 多年来失去了很多轨道)

非常感谢你!

编辑:重新阅读规范几次之后,似乎它实际上只是用掩码字节对数据字节进行异或,我可以一次做8个字节,直到最后几个字节。 问题仍然存在,因为我认为可能仍然有一种方法可以使用SSE等来优化它(可能一次只处理16个字节?让进程执行for循环?…)

是的,您可以使用SSE2在一条指令中XOR 16字节,或者一次使用AVX2(Haswell和更高版本)32字节。

SSE2:

 #include  // SSE2 instrinsics __m128i v, v_mask; uint8_t *buff; // buffer - must be 16 byte aligned for (int i = 0; i < N; i += 16) // note that N must be multiple of 16 { v = _mm_load_si128(&buff[i]); // load 16 bytes v = _mm_xor_si128(v, v_mask); // XOR with mask v = _mm_store_si128(&buff[i], v); // store 16 masked bytes } 

AVX2:

 #include  // AVX2 intrinsics __m256i w, w_mask; uint8_t *buff; // buffer - must be 16 byte aligned, // and preferably 32 byte aligned for (int i = 0; i < N; i += 32) // note that N must be multiple of 32 { w = _mm256_load_si256(&buff[i]); // load 32 bytes w = _mm256_xor_si256(w, w_mask); // XOR with mask w = _mm256_store_si256(&buff[i], w); // store 32 masked bytes }