嵌套循环到CUDA

我想将我的c代码移植到CUDA。主要计算部分包含3个嵌套循环：

for (int i=0; i< Nx;i++){ for (int j=0;j<Ncontains[i];j++){ for (int k=0;k< totalVoxels;k++){ ....... } } }

如何将其转换为我的CUDA内核？有两个for循环我可以做类似的事情：

 int n= blockIdy.y * blockDim.y + threadIdx.y; int i= blockIdx.x * blockDim.x + threadIdx.x;

但是我怎么能最初开始运行呢？

您可以通过多种方式实现目标，其中之一是：

 for (int i=blockIdx.x; i< Nx; i += gridDim.x){ for (int j=threadIdx.y; j


 以上你会打电话： 
 // nx,ny block dimensions kernel <<< dim3(nBlocks), dim3(nx, ny) >>> (...);



  你如何写一个bigint库/ libgmp是如何工作的？
  SPOJ你能回答这些问题吗？
	指针语法混乱（* ptr vs ptr）
C中的通用堆栈
为什么这段简单的代码不起作用？
man7.org声明有效的程序无效
Windows上的32位_asm代码到64位汇编代码
在处理Aleph One文章时，64位系统上没有堆栈分配
使用特定链接器进行CMake交叉编译不会将参数传递给armlink
我得到了这个警告：数组函数参数上的sizeof将返回’const char *’的大小而不是’const char ‘
c：空隙大小*

嵌套循环到CUDA

程序结束时释放块没有意义吗？

混合编程Fortran和C.

使用pthread在C中生成随机数的最正确方法是什么

索引超过C数组的末尾

将字符串（单词）拆分为C中的字母

读取文件为字节数组

如何在框架中使用Swift文件中的C dylib

如何在C中使用逐位和逻辑运算符将无符号数转换四倍

为什么size_t当int足以满足数组的大小？

从JNA / C调用DLL与Pascal的结果不一致