forceinline对CUDA C device函数的影响

关于何时使用内联函数以及何时在常规C编码中避免它，有很多建议。 __forceinline__对CUDA C __device__函数有什么影响？应该在哪里使用以及在哪里避免？

通常， nvcc设备代码编译器会自行决定何时内联特定的__device__函数，一般来说，您可能不需要担心使用__forceinline__ decorator /指令覆盖它。

cc 1.x设备没有与新设备相同的硬件function，因此编译器通常会自动为这些设备内联函数。

我认为指定__forceinline__的原因与您对主机C代码的了解相同。当编译器可能无法内联函数时（例如，在cc 2.x或更新的设备上），它通常用于优化。如果你只调用一次函数，那么这个优化（即函数调用开销）可能是微不足道的，但是如果你在一个循环中调用函数，那么确保它被内联可能会在代码执行方面给出明显的改进。

作为反例，内联和递归通常具有禁忌症。对于调用自身的递归函数，我认为不可能处理任意递归和严格内联。因此，如果您打算递归使用函数（在cc 2.x及更高版本中支持），您可能不希望指定__forceinline__ 。

一般来说，我认为您应该让编译器为您管理。它将智能地决定是否内联函数。

forceinline对CUDA C device函数的影响

Swift转换C的uint64_t与使用自己的UInt64类型不同

用scanf读取C ++字符串

sprintf无效格式’％d’

外部链接C库中的exception传播

这段代码的含义

Linux中的COM端口检测

Clang中有__int128_t的错误？

在C中将ascii char 转换为hexchar

使用SSE内在函数的大小为100 * 100的矩阵乘法

如何在C中随机混洗链表

__forceinline__对CUDA C __device__函数的影响

Swift转换C的uint64_t与使用自己的UInt64类型不同

用scanf读取C ++字符串

sprintf无效格式’％d’

外部链接C库中的exception传播

这段代码的含义

Linux中的COM端口检测

Clang中有__int128_t的错误？

在C中将ascii char 转换为hexchar

使用SSE内在函数的大小为100 * 100的矩阵乘法

如何在C中随机混洗链表

forceinline对CUDA C device函数的影响