如何在不触摸缓存的情况下写入或读取内存

有没有办法在不触及x86 CPU下的L1 / L2 / L3缓存的情况下写入/读取内存？

是否完全由硬件管理的x86 CPU缓存？

编辑：我想这样做，因为我想采样内存的速度，看看内存的任何部分性能是否下降。

CPU确实在硬件中管理自己的缓存，但x86为您提供了一些影响此管理的方法。

要在不缓存的情况下访问内存，您可以：

使用x86非时间指令，它们是为了告诉CPU你不会再次重用这些数据，因此将它保留在缓存中是没有意义的。 x86中的这些指令通常称为movnt *（根据数据类型使用后缀，例如，用于将正常整数加载到通用寄存器的movnti）。还有用于流加载/存储的指令，这些指令也使用类似的技术，但更适合于高BW流（当您连续加载整行时）。要使用它们，要么在内联汇编中对它们进行编码，要么使用编译器提供的内在函数，其中大多数都称为该族_mm_stream_ *
将特定区域的内存类型更改为不可缓存。既然你声明你不想禁用所有缓存（理所当然，因为这也包括代码，堆栈，页面映射等等），你可以将基准测试数据集所在的特定区域定义为不可缓存，使用MTRR（存储器类型范围寄存器）。有几种方法可以做到这一点，你需要阅读一些文档。
最后一个选项是正常获取行，这意味着它最初会被缓存，但是然后使用专用clflush指令强制它清除所有缓存级别（如果要刷新整个缓存，则使用完整的wbinvd）。确保正确地围绕这些操作，以便您可以保证它们已完成（当然，不要将它们作为延迟的一部分进行测量）。

话虽如此，如果你想做所有这些只是为了时间内存读取，你可能会得到不好的结果，因为大多数CPU“低效率”处理非时间或不可缓存的访问。如果你刚刚强迫读取来自内存，最好通过顺序访问一个足够大的数据集来操纵缓存LRU来实现，这个数据集不适合任何缓存。这将使大多数LRU方案（不是全部！）首先丢弃最旧的行，所以下次你回绕时，它们必须来自内存。

请注意，要使其正常工作，您需要确保您的硬件预取器没有帮助（并且意外地覆盖了您要测量的延迟） – 要么禁用它，要么使访问步幅足够远以使其无效。

Leeor preety列出了最适合您任务的“ 专业 ”解决方案。我将尝试添加另一个可以实现相同结果的提议，并且可以使用简单的代码在纯C中编写。我们的想法是制作类似于HPCC Challenge基准测试中的“全局随机访问”的内核。

内核的想法是随机跳过一大堆 8B值，这些值通常是物理内存的1/2（因此，如果你有16 GB的RAM，你需要一个8GB的arrays，导致8B的1G元素）。对于每次跳转，您可以读取，写入或RMW目标位置。

这很可能测量RAM延迟，因为随机跳过RAM 会使缓存效率非常低 。您将获得极低的缓存命中率，如果您对arrays进行了足够的操作，您将能够测量内存的实际性能。由于没有可检测的模式，该方法也使预取非常无效 。

您需要考虑以下事项：

确保编译器不会优化你的内核循环（确保在该数组上执行某些操作或使用从中读取的值创建某些内容）。
使用非常简单的随机数生成器，不要将目标地址存储在另一个数组中（将被缓存）。我使用了线性同余发生器 。这样，下一个地址的计算速度非常快，并且不会增加RAM以外的额外延迟。

如何在不触摸缓存的情况下写入或读取内存

如何从随机数发生器返回中间位？

SConscript中的SharedLibrary的CCCOMSTR / LINKCOMSTR不起作用

Vulkan：vk * CreateInfo结构中的sType有什么意义？

声明与global，local和static同名的变量

size_t实际上是指针大小

solaris中sockets错误EINPROGRESS的可能原因是什么？

我需要在C中实现一个Butterworthfilter。是否更容易获得具有此function的库或编写代码？

错误：’unary *’的无效类型参数（有’int’）

乘以两个数字数组

在C之前调用main之前的一些函数