复制跨步数据（往返于CUDA设备）的有效方法？

是否有可能有效地将由恒定（或甚至非常数）值跨越的数据复制到CUDA设备和从CUDA设备复制？

我想对角化一个大的对称矩阵。

使用jacobi算法，在每次迭代中使用两行和两列进行一系列操作。

由于Matrix本身太大而无法完全复制到设备，因此我正在寻找将两行和两列复制到设备的方法。

使用三角矩阵forms存储数据会很好，但还有其他缺点

非恒定行长[不是那种问题]
列值的非恒定步幅[每行的步幅增加1。]

出现。 [编辑：即使使用三角形，仍然无法将整个Matrix存储在GPU上。]

我查看了一些时间并认识到逐个复制跨步值非常慢（同步和异步）。

//编辑：删除解决方案 – 添加了答案

感谢Robert Crovella给出正确的使用cudamemcpy2d的提示。我会附上我的测试代码，让每个人都有可能理解……

如果有人提出使用行主要有序三角矩阵解决复制问题的建议 – 请随意写另一个答案。

__global__ void setValues (double *arr, double value) { arr[blockIdx.x] = value; } int main( void ) { // define consts static size_t const R = 10, C = 10, RC = R*C; // create matrices and initialize double * matrix = (double*) malloc(RC*sizeof(double)), *final_matrix = (double*) malloc(RC*sizeof(double)); for (size_t i=0; i>>(dev_col, 88.0); // column should be 88 setValues<<>>(dev_row, 99.0); // row should be 99 // backcopy cudaMemcpy(&final_matrix[selected_row*C], dev_row, C * sizeof(double), cudaMemcpyDeviceToHost); cudaMemcpy2D(&final_matrix[selected_col], C*sizeof(double), dev_col, sizeof(double), sizeof(double), R, cudaMemcpyDeviceToHost); cudaDeviceSynchronize(); // output for checking functionality printf("Initial Matrix:\n"); for (size_t i=0; i



  “char * _EXFUN（index，（const char *，int））;”的含义
  什么是void * userData到底是什么？
	使用qsort和printf时出现分段错误
如何拒绝C中的套接字连接？
用VS7编写的C程序使用Win7 / 8 / 2008R2 / 2012，但不是2003 / XP / 32bit？
为什么以下的OpenMP程序无法减少我的变量？
分配新的调用堆栈
使用LLVM检测C / C ++代码
如何在文件*流中的特定点停止并扫描某些值？
什么使SPI比I2C协议更快
哪些组件使用区域设置变量？

复制跨步数据（往返于CUDA设备）的有效方法？

使用`NULL`指针转换说明符`p`的行为是什么？

如何使用具有面部特征的openCV训练支持向量机（svm）分类器？

c表达式与c ++表达式之间的差异

字符串数组C的分段错误

APC与自定义Mmap扩展

编译器有时可以缓存声明为volatile的变量

标准C库和系统调用如何协同工作？

减少整数分数算法

比较C中不同数据类型的一般规则是什么？

i ++，i = i + 1和i + = 1哪一个更快？