Tag: nvidia

在CUDA中使用常量

哪个是在CUDA中使用常量的最佳方法? 一种方法是在常量内存中定义常量,如: // CUDA global constants __constant__ int M; int main(void) { … cudaMemcpyToSymbol(“M”, &M, sizeof(M)); … } 一种替代方法是使用C预处理器: #define M = … 我认为使用C预处理器定义常量要快得多。 那么在CUDA设备上使用常量内存的好处是什么?

如何获得cuda设备中的核心数量?

我正在寻找一个计算我的cuda设备核心数量的function。 我知道每个微处理器都有特定的核心,我的cuda设备有2个微处理器。 我经常搜索一个属性函数来计算每个微处理器的核心数,但我不能。 我使用下面的代码,但我仍然需要核心数量? cuda 7.0 程序语言C. 视觉工作室2013 码: void printDevProp(cudaDeviceProp devProp) { printf(“%s\n”, devProp.name); printf(“Major revision number: %d\n”, devProp.major); printf(“Minor revision number: %d\n”, devProp.minor); printf(“Total global memory: %u”, devProp.totalGlobalMem); printf(” bytes\n”); printf(“Number of multiprocessors: %d\n”, devProp.multiProcessorCount); printf(“Total amount of shared memory per block: %u\n”,devProp.sharedMemPerBlock); printf(“Total registers per block: %d\n”, devProp.regsPerBlock); printf(“Warp size: %d\n”, devProp.warpSize); […]

Cuda内核返回向量

我有一个单词列表,我的目标是在一个非常长的短语中匹配每个单词。 我在匹配每个单词方面没有问题,我唯一的问题是返回包含每个匹配信息的结构向量。 在代码中: typedef struct { int A, B, C; } Match; __global__ void Find(veryLongPhrase * _phrase, Words * _word_list, vector * _matches) { int a, b, c; […] //Parallel search for each word in the phrase if(match) //When an occurrence is found { _matches.push_back(new Match{ A = a, B = b, C = c […]