Tag: nsight

无法使用cuda进入__global__函数

我在Nsight上编写了一个编译并可以执行的代码但是第一次启动无法完成。 奇怪的是,当我在调试模式下运行时,它运行得很好,但速度太慢了。 在进入访问GPU的函数之前,这是代码的一部分(我认为有一个我无法找到的错误): void parallelAction (int * dataReturned, char * data, unsigned char * descBase, int range, int cardBase, int streamIdx) { size_t inputBytes = range*128*sizeof(unsigned char); size_t baseBytes = cardBase*128*sizeof(unsigned char); size_t outputBytes = range*sizeof(int); unsigned char * data_d; unsigned char * descBase_d; int * cardBase_d; int * dataReturned_d; cudaMalloc((void **) &data_d, inputBytes); cudaMalloc((void […]