Tag: 优化

Matlab mex文件与其直接C等效文件相比较慢: 我无法解释（并避免）Matlab mex程序与没有Matlab接口的相应C程序之间的速度差异。我一直在分析数值分析程序： int main(){ Well_optimized_code(); } 使用gcc 4.4针对Matlab-Mex等效编译（指向使用gcc44，这不是Matlab当前支持的版本，但出于其他原因需要）： void mexFunction(int nlhs,mxArray* plhs[], int nrhs, const mxArray* prhs[]){ Well_optimized_code(); //literally the exact same code } 我执行的时间如下： $ time ./C_version 与 >> tic; mex_version(); toc 时间上的差异是惊人的。从命令行运行的版本平均需要5.8秒。 Matlab中的版本在21秒内运行。对于上下文，mex文件替换SimBiology工具箱中的算法，该算法大约需要26秒才能运行。与Matlab算法相比，C和mex版本都使用对openMP的调用线性扩展到27个线程，但为了进行性能分析，这些调用已被禁用并注释掉。这两个版本以相同的方式编译，除了作为mex文件编译的必要标志：-fPIC –shared -lmex -DMATLAB_MEX_FILE应用于mex编译/链接。我删除了对mex文件的左右参数的所有引用。也就是说它不需要输入，也没有输出，它仅用于分析。伟大而光荣的谷歌告诉我，与位置无关的代码不应该是经济放缓的源头，而且我不知所措。任何帮助将不胜感激，安德鲁

你有多快能进行线性搜索？: 我正在寻找优化这种线性搜索： static int linear (const int *arr, int n, int key) { int i = 0; while (i = key) break; ++i; } return i; } 数组已排序，函数应返回大于或等于键的第一个元素的索引。它们的数组不大（低于200个元素），并且会为大量搜索准备一次。如果需要，可以在第n个之后将数组元素初始化为适当的数组，如果这样可以加快搜索速度。不，不允许二进制搜索，只允许线性搜索。编辑：我在博客文章中总结了有关此主题的所有知识。

在C / C ++中`if（CONSTANT）{…}`是否已经过优化？: 现代编译器是否优化了一段代码，如if(CONSTANT) { … } ，其中CONSTANT是文字，模板参数， const变量或constexpr变量？他们是否删除整个if(0) { … }表达式或“抛弃” if(1) { … }的if(1)部分？

我什么时候应该省略帧指针？: 省略帧指针时是否有任何实质性的优化？如果我通过阅读本页正确理解，当我们想要避免保存，设置和恢复帧指针时，使用-fomit-frame-pointer 。这是仅针对每个函数调用完成的吗？如果是这样，是否真的值得为每个函数避免一些指令？优化不是一件容易的事。除了调试限制之外，使用此选项的实际含义是什么？我使用和不使用此选项编译了以下C代码 int main(void) { int i; i = myf(1, 2); } int myf(int a, int b) { return a + b; } ， # gcc -S -fomit-frame-pointer code.c -o withoutfp.s # gcc -S code.c -o withfp.s 。 diff -u这两个文件显示以下汇编代码： — withfp.s 2009-12-22 00:03:59.000000000 +0000 +++ withoutfp.s 2009-12-22 00:04:17.000000000 +0000 […]

如何编写快速（低级）代码？: 我想了解有关低级代码优化以及如何利用底层机器架构的更多信息。我正在寻找关于在哪里阅读有关此主题的好指示。更多细节：我感兴趣的是在C / C ++等低级语言中进行科学计算（这是一个很多数字运算但不仅仅是）的优化。我特别感兴趣的是优化方法，这些方法并不明显，除非人们对机器的工作原理有很好的了解（我还没有）。例如，很明显，更好的算法更快，而不知道它运行的机器的任何信息。如果首先循环遍历列或行的矩阵，那么这一点并不明显。（最好循环遍历矩阵，以便连续读取存储在相邻位置的元素。）关于该主题的基本建议或文章指针是最受欢迎的。答案得到了许多伟大指针的答案，比我有时间阅读的要多得多。这是所有这些的列表：英特尔软件优化食谱（书）每个程序员应该了解的内存（pdf书）写出伟大的代码，第2卷：思考低级，写高级（书） Agner Fog的软件优化资源（五本详细的pdf手册）我需要一些脱脂时间来决定使用哪一个（没有时间）。

在C中，为什么“signed int”比“unsigned int”更快？: 在C中，为什么signed int比unsigned int更快？是的，我知道这个网站已被多次询问和回答（链接如下）。但是，大多数人都说没有区别。我编写了代码并意外地发现了显着的性能差异。为什么我的代码的“未签名”版本比“签名”版本慢（即使在测试相同的数字时）？（我有一个x86-64英特尔处理器）。类似的链接签名比无符号整数更快无符号vs有符号整数的性能编译命令： gcc -Wall -Wextra -pedantic -O3 -Wl,-O3 -g0 -ggdb0 -s -fwhole-program -funroll-loops -pthread -pipe -ffunction-sections -fdata-sections -std=c11 -o ./test ./test.c && strip –strip-all –strip-unneeded –remove-section=.note –remove-section=.comment ./test signed int版本注意：如果我在所有数字上明确声明了signed int ，则没有区别。 int isprime(int num) { // Test if a signed int is prime […]

C中的多字加法: 我有一个使用GCC的__uint128_t的C程序很棒，但现在我的需求已经超越了它。我有196或256位快速算术的选择吗？我需要的唯一操作是加法（我不需要进位，即，我将使用mod 2 ^ 192或2 ^ 256）。速度很重要，所以如果可能的话，我不想转向一般的多精度。（实际上我的代码确实在某些地方使用了多精度，但这是在关键循环中并且将运行数百亿次。到目前为止，多精度需要运行数万次。）也许这很简单，可以直接编码，或者我需要找到一些合适的库。你的建议是什么，哦Stack Overflow？澄清：GMP对我的需求来说太慢了。虽然我实际上在我的代码中使用了多精度，但它不在内循环中并且运行时间少于10 ^ 5次。热循环运行更像10 ^ 12次。当我改变我的代码（增加一个尺寸参数）以使多精度部分比单精度运行更频繁时，我的速度减慢了100倍（主要是由于内存管理问题，我认为，而不是额外的μops）。我希望将其降低到4倍或更好。

为什么在function序言/尾声中使用ebp？: 前段时间我正在尝试编写汇编程序并将其与C程序链接，我发现我可以跳过标准的C调用序言尾声 push ebp mov ebp, esp (sub esp, 4 … mov esp, ebp) pop ebp 只是跳过这一切，只需通过esp ，就像 mov eax, [esp+4] ;; take argument mov [esp-4], eax ;; use some local variable storage 它似乎工作得很好。为什么使用这个ebp – 可能更快地通过ebp解决或者是什么？

转换4×4字节矩阵的最快方法: 我有一个4×4字节块，我想使用通用硬件进行转置。换句话说，对于字节AP，我正在寻找最有效的（就指令数量而言）的方式 ABCD EFGH IJKL MNOP 至 AEIM BFJN CGKO DHLP 我们可以假设我在内存中有指向A ， E ， I和M有效指针（这样从A读取32位将得到包含字节ABCD的整数）。由于对大小和数据类型的限制，这不是此问题的重复。我的矩阵的每一行都可以容纳32位整数，我正在寻找能够使用通用硬件快速执行转置的答案，类似于SSE宏_MM_TRANSPOSE4_PS 。

哪个运算符更快（>或> =），（<或<=）？: <更便宜（更快）而不是<= ，同样地， >比>=更便宜（更快）？免责声明：我知道我可以测量，但这只会在我的机器上，我不确定答案是否可以是“特定于实现”或类似的东西。

Interesting Posts

Tag: 优化

Matlab mex文件与其直接C等效文件相比较慢

你有多快能进行线性搜索？

在C / C ++中`if（CONSTANT）{…}`是否已经过优化？

我什么时候应该省略帧指针？

如何编写快速（低级）代码？

在C中，为什么“signed int”比“unsigned int”更快？

C中的多字加法

为什么在function序言/尾声中使用ebp？

转换4×4字节矩阵的最快方法

哪个运算符更快（>或> =），（<或<=）？

C – 设计你自己的free（）函数

SDL_SaveBMP将图像上下颠倒

在gcc内联asm中data32 data32 nopw％cs：0x0（％rax，％rax，1）指令是什么意思？

c模块中的命名空间或包

C宏，奇怪的东西

退出的Syscall实现（）

在C中使用ASM命令

在没有明显内存违规的情况下中止而不是段错误

从内核空间代码访问文件？

使用睡眠function时如何增加计数？

GMP上的精度损失mpf_add。我的数字去了哪里？

RDTSCP与RDTSC + CPUID

如何在if语句中使用fork（）

在Windows下查找程序在c中使用的总内存

将int转换为void *或反之亦然意味着什么？

Tag: 优化

Matlab mex文件与其直接C等效文件相比较慢

你有多快能进行线性搜索？

在C / C ++中`if（CONSTANT）{…}`是否已经过优化？

我什么时候应该省略帧指针？

如何编写快速（低级）代码？

在C中，为什么“signed int”比“unsigned int”更快？

C中的多字加法

为什么在function序言/尾声中使用ebp？

转换4×4字节矩阵的最快方法

哪个运算符更快（>或> =），（<或<=）？

C – 设计你自己的free（）函数

SDL_SaveBMP将图像上下颠倒

在gcc内联asm中data32 data32 nopw％cs：0x0（％rax，％rax，1）指令是什么意思？

c模块中的命名空间或包

C宏，奇怪的东西

退出的Syscall实现（）

在C中使用ASM命令

在没有明显内存违规的情况下中止而不是段错误

从内核空间代码访问文件？

使用睡眠function时如何增加计数？

GMP上的精度损失mpf_add。 我的数字去了哪里？

RDTSCP与RDTSC + CPUID

如何在if语句中使用fork（）

在Windows下查找程序在c中使用的总内存

将int转换为void *或反之亦然意味着什么？

GMP上的精度损失mpf_add。我的数字去了哪里？