Tag: pycuda

PyCuda:在Cuda内核中通过指针取消引用数组元素

我正在使用PyCuda通过指针将数组对传递给cuda内核。 数组是不同内核的输出,因此数据已经在GPU上。 在内核中,我试图访问每个数组中的元素来进行向量减法。 我为数组中的元素获取的值不正确(h&p在下面的代码中是错误的)。 任何人都可以帮我看看我做错了什么? 我的代码: import pycuda.driver as cuda import pycuda.autoinit from pycuda.compiler import SourceModule import numpy as np import time import cv2 from pycuda.tools import DeviceMemoryPool as DMP from scipy.spatial import distance import os import glob def get_cuda_hist_kernel(): #Make the kernel histogram_kernel = “”” __global__ void kernel_getHist(unsigned int* array,unsigned int size, unsigned int* […]

pyCUDA与C的性能差异?

我是CUDA编程的新手,我想知道如何将pyCUDA的性能与简单C中实现的程序进行比较。性能大致相同吗? 我应该注意哪些瓶颈? 编辑:我显然首先尝试谷歌这个问题,并惊讶于没有找到任何信息。 即我会排除pyCUDA人在他们的常见问题解答中回答这个问题。