OpenCV：C ++和C性能比较

现在我正在使用OpenCV API（ C++ ）开发一些应用程序。此应用程序使用video处理。

在电脑上一切都很快。今天我决定在Android上移植这个应用程序（使用camera作为videoinput）。幸运的是，OpenCV for Android所以我只是将我的原生代码添加到Android应用程序示例中。一切都很好，除了性能。我对我的应用程序进行了基准测试，发现该应用程序的工作速度为4-5 fps，实际上是不可接受的（我的设备有单一的1ghz处理器） – 我希望它能以大约10 fps的速度工作。

是否可以在C上完全重写我的应用程序？我知道使用std::vector这样的东西对开发人员来说很舒服，但我并不关心它。

似乎OpenCV's C接口具有与C++接口相同的function/方法。

我用Google搜索了这个问题，但没有找到任何结果。

谢谢你的建议。

我在Android和优化方面做了很多工作（我写了一个video处理应用程序，在4ms内处理一个帧）所以我希望我会给你一些相关的答案。

OpenCV中的C和C ++接口没有太大区别。有些代码是用C语言编写的，有一个C ++包装器，有些反之亦然。两者之间的任何显着差异（由Shervin Emami测量）都是回归，错误修复或质量改进。你应该坚持使用最新的OpenCV版本。

为什么不重写？

你将花费大量的时间，你可以使用得更好。 C接口很麻烦，并且引入错误或内存泄漏的可能性很高。在我看来，你应该避免它。

建议优化

A.开启优化。

编译器优化和缺少调试断言都会对运行时间产生很大影响。

B.描述您的应用。

首先在您的计算机上执行此操作，因为它更容易。使用visual studio profiler识别慢速部件。优化它们。永远不要优化，因为你觉得很慢，但因为你测量它。从最慢的函数开始，尽可能地优化它，然后慢一点。测量您的更改，以确保它确实更快。

C.专注于算法。

更快的算法可以提高数量级（100x）的性能。 C ++技巧可以为你提供2倍的性能提升。

经典技巧：

调整video帧的大小。通常，您可以从200x300px图像中提取信息，而不是1024×768。第一个区域小10倍。
使用更简单的操作而不是复杂的操作。使用整数而不是浮点数。永远不要在矩阵或执行数千次的for循环中使用double 。
做尽可能少的计算。您是否可以仅在图像的特定区域中跟踪对象，而不是为所有帧处理所有对象？您是否可以在非常小的图像上进行粗略/近似检测，然后在全帧中的ROI上进行优化？

D.在重要的地方使用C.

在循环中，使用C风格而不是C ++可能是有意义的。指向数据矩阵或float数组的指针比mat.at或std :: vector <>快得多。瓶颈通常是嵌套循环。专注于它。在整个地方替换vector <>并对代码进行破坏是没有意义的。

E.避免隐藏成本

一些OpenCV函数将数据转换为double，处理它，然后转换回输入格式。要小心它们，它们会破坏移动设备的性能。示例：变形，缩放，类型转换。此外，已知颜色空间转换是懒惰的。喜欢直接从原生YUV获得的灰度。

F.使用矢量化

ARM处理器使用称为NEON的技术实现矢量化。学会使用它。它很强大！

一个小例子：

 float* a, *b, *c; // init a and b to 1000001 elements for(int i=0;i<1000001;i++) c[i] = a[i]*b[i];

可以改写如下。它更冗长，但速度更快。

 float* a, *b, *c; // init a and b to 1000001 elements float32x4_t _a, _b, _c; int i; for(i=0;i<1000001;i+=4) { a_ = vld1q_f32( &a[i] ); // load 4 floats from a in a NEON register b_ = vld1q_f32( &b[i] ); c_ = vmulq_f32(a_, b_); // perform 4 float multiplies in parrallel vst1q_f32( &c[i], c_); // store the four results in c } // the vector size is not always multiple of 4 or 8 or 16. // Process the remaining elements for(;i<1000001;i++) c[i] = a[i]*b[i];

纯粹主义者说你必须用汇编语言写作，但对于一个有点令人生畏的普通程序员来说。我使用gcc内在函数得到了很好的结果，就像上面的例子一样。

跳转启动的另一种方法是将OpenCV中手动编码的SSE优化代码转换为NEON。 SSE是Intel处理器中的NEON等价物，许多OpenCVfunction都使用它，就像这里一样。这是uchar矩阵的图像过滤代码（常规图像格式）。你不应该一个一个地盲目地转换指令，而是以它为例开始。

您可以在此博客和以下post中阅读有关NEON的更多信息。

G.注意图像捕捉

在移动设备上，它可能会出乎意料地慢。优化它是设备和操作系统特定的。

在做出这样的决定之前，您应该分析您的代码以找到代码中的热点。如果没有这些信息，您为加快速度所做的任何更改都将是猜测。你试过这个Android NDK分析器吗？

shervin imami在他的网站上进行了一些性能测试。你可以检查它以获得一些想法。

http://www.shervinemami.info/timingTests.html

希望能帮助到你。

（而且，如果你在任何方面获得性能提升，那么如果你在某个地方分享自己的发现会很好。）

我想这个问题需要制定为：C比C ++快吗？答案是否定的。两者都被编译为本机机器语言，C ++被设计为与C一样快。因为STL（特别是ISO标准）也被设计并注意它们与指针一样快+它们提供灵活性。使用C的唯一原因是你的平台不支持C ++在我卑微的开放中，不要将所有内容都转换为C，因为你可能会获得几乎相同的性能。并尝试改进您的代码或使用opencv的其他function来做你想要的。

不相信？然后编写一个简单的函数，一次在C中，一次在C ++中，然后以1亿次循环运行并自己测量时间。也许这有助于您做出正确的决定

我从未在Android中使用过C或C ++。但是在PC中，你可以让C ++以与C代码一样快的速度运行（有时甚至更快）。大多数C ++专门设计用于允许更多function，但不以牺牲速度为代价（模板在编译时解决）。大多数编译器都非常擅长优化代码，并且std :: vector调用将被内联，代码将与使用本机C数组几乎相同。

我建议你寻找另一种改善表现的方法。也许Android中有一些多媒体硬件扩展，您可以访问并使用它们来优化代码。

我在多次测试中注意到：

直接访问像素而不是使用Mat.at（x，y）方法时，C接口（IplImage）的速度提高了很多倍，当我将C ++应用程序转换为C时，我的blob检测程序性能提高了3倍
当从外部应用程序（例如LabView）调用时，C ++接口在某些例程中崩溃，而在C中调用相同的例程时它会起作用。例如FindContours和cvFindContours
C与嵌入式设备的兼容性更高。但是，我还没有在这个领域做过任何事情。

OpenCV：C ++和C性能比较

你可以确定一个字符串是否可以在C中释放？

如何将PFS添加到用c和openssl编写的套接字服务器中

C程序链接共享库而不设置LD_LIBRARY_PATH

在C中，如果我对一个指针进行转换和取消引用，那么我先做哪一个是否重要？

C中的输入限制

野牛规格和优先顺序

数字622.08E6 C中的解释

使用malloc作为结构的多维数组

为什么我需要刷新I / O流才能获得正确的结果？

如何将库静态链接到另一个静态库？