Tag: openmp intel mkl vtune

英特尔Phi的MKL性能

我有一个例程,在小矩阵(50-100 x 1000个元素)上执行一些MKL调用以适合模型,然后我调用不同的模型。 在伪代码中: double doModelFit(int model, …) { … while( !done ) { cblas_dgemm(…); cblas_dgemm(…); … dgesv(…); … } return result; } int main(int argc, char **argv) { … c_start = 1; c_stop = nmodel; for(int c=c_start; c<c_stop; c++) { … result = doModelFit(c, …); … } } 调用上面的版本1.由于模型是独立的,我可以使用OpenMP线程来并行化模型拟合,如下所示(版本2): int main(int argc, char **argv) […]