是否可以在OpenCL中并行运行和计算?

我是OpenCL的新手。 但是,我理解C / C ++基础知识和OOP。 我的问题如下:是否有可能并行运行和计算任务? 理论上可行吗? 下面我将描述我尝试过的事情:

例如,任务是:

double* values = new double[1000]; //let's pretend it has some random values inside double sum = 0.0; for(int i = 0; i < 1000; i++) { sum += values[i]; } 

我在OpenCL内核中尝试做的事情(我觉得这是错误的,因为它可能同时从不同的线程/任务访问相同的“sum”变量):

 __kernel void calculate2dim(__global float* vectors1dim, __global float output, const unsigned int count) { int i = get_global_id(0); output += vectors1dim[i]; } 

这段代码错了。 如果理论上有可能并行运行这样的任务,如果有的话,我会非常感谢有人回答我 – 如何!

如果要以并行方式对数组的值求和,则应确保减少争用并确保跨线程没有数据依赖性。

数据依赖性将导致线程必须彼此等待,从而产生争用,这是您希望避免实现真正的并行化。

您可以这样做的一种方法是将数组拆分为N个数组,每个数组包含原始数组的一些子部分,然后使用每个不同的数组调用OpenCL内核函数。

最后,当所有内核完成了艰苦的工作时,您可以将每个数组的结果总结为一个。 CPU可以轻松完成此操作。

关键是在每个内核中完成的计算之间没有任何依赖关系,因此您必须分割数据并进行相应的处理。

我不知道您的数据是否与您的问题有任何实际依赖关系,但这是您要弄清楚的。

我提供的参考代码应该可以完成这项工作。

例如,您有N个元素,工作组的大小为WS = 64 。 我假设N2 * WS的倍数(这很重要,一个工作组计算2 * WS元素的总和)。 然后你需要运行内核指定:

 globalSizeX = 2*WS*(N/(2*WS)); 

因此, sum数组将具有2 * WS元素的部分和。 (例如sum [1] – 将包含索引从2 * WS4 * WS-1的元素之和)。

如果你的globalSizeX是2 * WS或更低(这意味着你只有一个工作组),那么你就完成了。 只需使用sum [0]即可 。 如果不是 – 您需要重复过程,这次使用sum数组作为输入数组并输出到其他数组(创建2个数组和它们之间的乒乓)。 等等,直到你只有一个工作组。

也搜索Hilli Steele / Blelloch并行算法。 这篇文章也很有用

这是实际的例子:

 __kernel void par_sum(__global unsigned int* input, __global unsigned int* sum) { int li = get_local_id(0); int groupId = get_group_id(0); __local int our_h[2 * get_group_size(0)]; our_h[2*li + 0] = hist[2*get_group_size(0)*blockId + 2*li + 0]; our_h[2*li + 1] = hist[2*get_group_size(0)*blockId + 2*li + 1]; // sweep up int width = 2; int num_el = 2*get_group_size(0)/width; int wby2 = width>>1; for(int i = 2*BLK_SIZ>>1; i>0; i>>=1) { barrier(CLK_LOCL_MEM_FENCE); if(li < num_el) { int idx = width*(li+1) - 1; our_h[idx] = our_h[idx] + our_h[(idx - wby2)]; } width<<=1; wby2 = width>>1; num_el>>=1; } barrier(CLK_LOCL_MEM_FENCE); // down-sweep if(0 == li) sum[groupId] = our_h[2*get_group_size(0)-1]; // save sum }