Tag: code timing

定时CUDA操作

我需要计算一次CUDA内核执行时间。 最佳实践指南说我们可以使用事件或标准计时function,如Windows中的clock() 。 我的问题是使用这两个函数给我一个完全不同的结果。 事实上,事件给出的结果与实际的实际速度相比似乎是巨大的。 我真正需要的是通过首先在较小的数据集上运行它的简化版本来预测计算的运行时间。 不幸的是,这个基准测试的结果是完全不现实的,要么过于乐观( clock() ),要么过于悲观(事件)。