如果它们是16字节对齐，是否可以直接将浮点数转换为__m128？

如果它们是16字节对齐的话，将浮点数直接转换为__m128是否安全/可行/可取？

我注意到使用_mm_load_ps和_mm_store_ps来“包装”原始数组会增加很大的开销。

我应该注意哪些潜在的陷阱？

编辑：

使用加载和存储指令实际上没有开销，我得到了一些数字混合，这就是为什么我有更好的性能。即使你能够在__m128实例中使用原始内存地址进行一些HORRENDOUS修改，当我运行测试时，如果没有_mm_load_ps指令则需要TWICE AS LONG完成，可能会回退到一些故障安全代码路径。

是什么让你认为_mm_load_ps和_mm_store_ps “增加了显着的开销”？这是向/从SSE寄存器加载/存储浮点数据的常规方法，假设源/目标是内存（并且任何其他方法最终归结为此）。

有几种方法可以将float值放入SSE寄存器中; 可以使用以下内在函数：

 __m128 sseval; float a, b, c, d; sseval = _mm_set_ps(a, b, c, d); // make vector from [ a, b, c, d ] sseval = _mm_setr_ps(a, b, c, d); // make vector from [ d, c, b, a ] sseval = _mm_load_ps(&a); // ill-specified here - "a" not float[] ... // same as _mm_set_ps(a[0], a[1], a[2], a[3]) // if you have an actual array sseval = _mm_set1_ps(a); // make vector from [ a, a, a, a ] sseval = _mm_load1_ps(&a); // load from &a, replicate - same as previous sseval = _mm_set_ss(a); // make vector from [ a, 0, 0, 0 ] sseval = _mm_load_ss(&a); // load from &a, zero others - same as prev

无论您是否声明_mm_set_ss(val)或_mm_load_ss(&val) ，编译器通常都会创建相同的指令 – 尝试并反汇编代码。

在某些情况下，写入_mm_set_ss(*valptr)而不是_mm_load_ss(valptr)有_mm_load_ss(valptr) …取决于代码的（结构）。

请访问http://msdn.microsoft.com/en-us/library/ayeb3ayc.aspx ，这可能但不安全或不推荐。

您不应直接访问__m128字段。

这就是为什么：

http://social.msdn.microsoft.com/Forums/en-US/vclanguage/thread/766c8ddc-2e83-46f0-b5a1-31acbb6ac2c5/

将float *转换为__m128将不起作用。 C ++编译器将赋值转换为__m128类型转换为SSE指令，将4个浮点数加载到SSE寄存器。假设编译了这个转换，它不会创建工作代码，因为不会生成SEE加载指令。

__m128变量实际上不是变量或数组。这是SSE寄存器的占位符，由C ++编译器替换为SSE汇编指令。要更好地理解这一点，请阅读英特尔汇编编程参考

我可以看到的一个显而易见的问题是，你不是别名（通过多个指针类型引用内存位置），这可能会使优化器混淆。别名的典型问题是，由于优化器没有观察到您正在通过原始指针修改内存位置，因此它认为它没有改变。

由于你显然没有完全使用优化器（或者你愿意依赖它来发出正确的SSE指令），你可能会没问题。

自己使用内在函数的问题在于它们被设计为在SSE寄存器上运行，并且不能使用从内存位置加载的指令变体并在单个指令中处理它。

问题问题已经过去几年了。要回答我的经验所显示的问题：

是

reinterpret_cast __m128*一个float*到__m128* ，反之亦然，只要float*是16字节对齐的 – 例子（在MSVC 2012中）：

 __declspec( align( 16 ) ) float f[4]; return _mm_mul_ps( _mm_set_ps1( 1.f ), *reinterpret_cast<__m128*>( f ) );

如果它们是16字节对齐，是否可以直接将浮点数转换为__m128？

为什么_mm256_load_pd编译为MOVUPD而不是MOVAPD？

如何告诉GCC指针参数总是双字对齐？

字对齐加载比x64处理器上的未对齐加载更快吗？

在C中解析/读取位图文件

如何在C中分配和释放对齐的内存

C结构大小对齐

确定与其成员相关的C / C ++结构的对齐方式

使用-falign-loops选项时这是一个GCC错误吗？

位字段及其对齐如何在C编程中起作用？

malloc返回的内存地址是否总是可以通过指向另一种类型的指针互换？