_mm_crc32_u64定义不明确

为什么世界上_mm_crc32_u64(...)定义是这样的？

 unsigned int64 _mm_crc32_u64( unsigned __int64 crc, unsigned __int64 v );

“crc32”指令总是累加32位CRC，而不是 64位CRC（毕竟，CRC32不是CRC64）。如果机器指令CRC32 恰好具有64位目标操作数，则忽略高32位，并在完成时填充0，因此没有使用EVER具有64位目标。我理解为什么英特尔允许在指令上使用64位目标操作数（为了均匀性），但如果我想快速处理数据，我想要一个尽可能大的源操作数（即如果剩下那么多数据，则为64位，尾部较小）并且始终是32位目标操作数。但内在函数不允许使用64位源和32位目标。注意其他内在函数：

 unsigned int _mm_crc32_u8 ( unsigned int crc, unsigned char v );

“crc”的类型不是8位类型，也不是返回类型，它们是32位。为什么没有

 unsigned int _mm_crc32_u64 ( unsigned int crc, unsigned __int64 v );

？英特尔指令支持这一点，这是最有意义的内在因素。

有没有人有可移植的代码（Visual Studio和GCC）来实现后者的内在？ 谢谢。 我的猜测是这样的：

 #define CRC32(D32,S) __asm__("crc32 %0, %1" : "+xrm" (D32) : ">xrm" (S))

对于GCC，和

 #define CRC32(D32,S) __asm { crc32 D32, S }

用于VisualStudio。不幸的是，我对约束如何工作几乎一无所知，并且对汇编级编程的语法和语义缺乏经验。

小编辑：记下我定义的宏：

 #define GET_INT64(P) *(reinterpret_cast(P))++ #define GET_INT32(P) *(reinterpret_cast(P))++ #define GET_INT16(P) *(reinterpret_cast(P))++ #define GET_INT8(P) *(reinterpret_cast(P))++ #define DO1_HW(CR,P) CR = _mm_crc32_u8 (CR, GET_INT8 (P)) #define DO2_HW(CR,P) CR = _mm_crc32_u16(CR, GET_INT16(P)) #define DO4_HW(CR,P) CR = _mm_crc32_u32(CR, GET_INT32(P)) #define DO8_HW(CR,P) CR = (_mm_crc32_u64((uint64)CR, GET_INT64(P))) & 0xFFFFFFFF;

注意最后一个宏语句有多么不同。缺乏统一性当然表明内在性尚未明确定义。虽然没有必要在最后一个宏中放入显式(uint64) ，但它是隐式的并且确实发生了。反汇编生成的代码显示了转换32-> 64和64-> 32的代码，这两者都是不必要的。

换句话说，它是_mm_crc32_u64 ， 而不是 _mm_crc64_u64 ，但它们已经实现了它，好像它是后者。

如果我能够将CRC32的定义更正确，那么我想将我的宏更改为

 #define DO1_HW(CR,P) CR = CRC32(CR, GET_INT8 (P)) #define DO2_HW(CR,P) CR = CRC32(CR, GET_INT16(P)) #define DO4_HW(CR,P) CR = CRC32(CR, GET_INT32(P)) #define DO8_HW(CR,P) CR = CRC32(CR, GET_INT64(P))

有没有人有可移植的代码（Visual Studio和GCC）来实现后者的内在？谢谢。

我和我的朋友写了一个c ++ sse intrinsics包装器，它包含了64c src的crc32指令的更优选用法。

http://code.google.com/p/sse-intrinsics/

请参阅i_crc32（）指令。（遗憾的是，在其他指令中有更多关于英特尔内在规范的缺陷，请参阅此页面以了解有缺陷的内在设计的更多示例）

提供的4个固有function确实允许所有可能使用的英特尔定义的CRC32指令。指令输出始终为32位，因为指令被硬编码为使用特定的32位CRC多项式。但是，该指令允许您的代码一次向其输入8,16,32或64位输入数据。一次处理64位应最大化吞吐量。如果限制为32位构建，则一次处理32位是最好的。如果输入字节数是奇数或不是4/8的倍数，则一次处理8或16位可以简化代码逻辑。

 #include  #include  #include  int main (int argc, char *argv []) { int index; uint8_t *data8; uint16_t *data16; uint32_t *data32; uint64_t *data64; uint32_t total1, total2, total3; uint64_t total4; uint64_t input [] = {0x1122334455667788, 0x1111222233334444}; total1 = total2 = total3 = total4 = 0; data8 = (void *) input; data16 = (void *) input; data32 = (void *) input; data64 = (void *) input; for (index = 0; index < sizeof input / sizeof *data8; index++) total1 = _mm_crc32_u8 (total1, *data8++); for (index = 0; index < sizeof input / sizeof *data16; index++) total2 = _mm_crc32_u16 (total2, *data16++); for (index = 0; index < sizeof input / sizeof *data32; index++) total3 = _mm_crc32_u32 (total3, *data32++); for (index = 0; index < sizeof input / sizeof *data64; index++) total4 = _mm_crc32_u64 (total4, *data64++); printf ("CRC32 result using 8-bit chunks: %08X\n", total1); printf ("CRC32 result using 16-bit chunks: %08X\n", total2); printf ("CRC32 result using 32-bit chunks: %08X\n", total3); printf ("CRC32 result using 64-bit chunks: %08X\n", total4); return 0; }

_mm_crc32_u64定义不明确

在C中停止getline

在free / delete上编写Garbage

由不准确的数据类型导致的计算不准确

如果集合在进程中不可分，则使用MPI_Scatter

如何有效地检索数字的第一个十进制数字

将8字节char数组转换为long

如何根据“Endianness”将数据存储在位级别？

使用特定长度的随机字节生成NSData对象的最佳方法？

g_signal_connect“pad-added”不起作用

为什么要转换为指针然后取消引用？