Tag: 大步

有一个标准的,跨步的memcpy版本?

我有一个列向量A,长度为10个元素。 我有一个矩阵B,它是10乘10.B的内存存储是列专业。 我想用列向量A覆盖B中的第一行 。 显然,我可以这样做: for ( int i=0; i < 10; i++ ) { B[0 + 10 * i] = A[i]; } 我在0 + 10 * i留下了零,以突出显示B使用列主存储(零是行索引)。 在今晚CUDA-land的一些诡计之后,我想到可能有一个CPUfunction来执行一个跨步的memcpy? 我想在低级别,性能将取决于是否存在一个跨步加载/存储指令,我不记得在x86汇编中?