Tag: hamming distance

优化的CUDA矩阵汉明距离

是否有人知道优化的CUDA内核用于计算尺寸为A x N和N x B的两个矩阵之间的GEMM样式汉明距离? 问题几乎与GEMM相同,而是计算每个向量{1 … N}的和(a_n!= b_n),而不是对每个向量元素进行乘法和求和。 我想在编写自己的之前validation,因为这个问题比较常见,但我还没有成功找到它的代码。 修改代码的建议也很好。 编辑: 除了下面的kangshiyin的建议之外,我发现这个优化的SGEMM实现的演绎对于理解CUDA C编程指南中基本共享内存矩阵乘法示例之外的步骤非常有帮助。