有没有可以使用libc中的函数fma的情况？

我遇到这个页面，发现有一个奇怪的浮动乘法加法函数fmaf和fmaf 。它说结果是这样的：

  (x * y) + z #fma(x,y,z)

并且值是无限精度并且对结果格式进行一次舍入 。

然而，AFAICT我以前从未见过这样的三元手术。所以我想知道这个function的cumstom用法是什么。

融合乘加指令的重要方面是中间结果的（虚拟）无限精度。这有助于提高性能，但不是因为两个操作在单个指令中编码 – 它有助于提高性能，因为中间结果的几乎无限精度有时很重要，而且当使用普通乘法和加法时，恢复非常昂贵精确度正是程序员追求的目标。

示例：将`a * b`与`1.0`进行比较

假设一个算法确定两个双精度数a和b的乘积相对于非零常数的位置是至关重要的（我们将使用1.0 ）。数字a和b都具有二进制数字的完整有效数字。如果你a*b计算为double ，结果可能是1.0 ，但这并不能告诉你实际的数学乘积是否略低于1.0并且向上舍入到恰好为1.0，或略高于1.0并向下舍入。没有FMA，您的选择是：

将a*b计算为四精度数。四精度没有在硬件中实现，但有软件仿真库。在四精度中，产品的数学结果是完全可表示的，然后您可以将其与1.0进行比较。
在向上舍入模式和向下向下模式下以双精度计算a*b 。如果两个结果均为1.0，则表示a*b恰好为1.0。如果RU（a * b）大于1.0，则表示数学乘积大于1.0，如果RD（a * b）小于1.0，则表示数学乘积小于1.0。在大多数处理器上，这种方法意味着更改舍入模式三次，每次更改都很昂贵（它涉及刷新CPU管道）。

使用FMA指令，可以计算fma(a, b, -1.0)并将结果与0.0进行比较。由于浮点数在零附近更密集，并且由于中间乘积在计算中没有舍入，我们可以确定fma(a, b, -1.0) > 0表示a和b的数学乘积大于1 ，等等。

示例：Veltkamp / Dekker乘法

双倍格式是数字的有效表示，是两个双精度浮点数的总和。它几乎与四精度一样精确，但利用现有的双精度硬件。

考虑以下函数， Mul12(a, b) ，它采用两个双精度数字a和b并将它们的乘积计算为双重数字。由于Veltkamp和Dekker，算法仅使用双精度加法和乘法（参考）来计算此函数。它需要6次乘法（一次是每个Split()加上算法主体中的四个），还有很多补充。

如果FMA指令可用，则Mul12可以实现为两个操作，一个乘法和一个FMA。

 high = a * b; /* double-precision approximation of the real product */ low = fma(a, b, -high); /* remainder of the real product */ /* now the real product of a and b is available as the sum of high and low */

有没有可以使用libc中的函数fma的情况？

示例：将`a * b`与`1.0`进行比较

示例：Veltkamp / Dekker乘法

更多例子

Printf的结果（“％d”，＆a）

如何在Python中重定向stderr？通过Python C API？

并发内核启动示例 – CUDA

CUDA – Eratosthenes筛分为部分

找出2个相似或不相似的字符串

使用c中的FILE流读取/写入套接字

如何使用strtok（）

如何在富编辑控件上实现鼠标单击URL

带控件的DialogEx：resize？

像（void **）和device_array这样的转换有什么问题？

有没有可以使用libc中的函数fma的情况？

示例：将a * b与1.0进行比较

示例：Veltkamp / Dekker乘法

更多例子

Printf的结果（“％d”，＆a）

如何在Python中重定向stderr？ 通过Python C API？

并发内核启动示例 – CUDA

CUDA – Eratosthenes筛分为部分

找出2个相似或不相似的字符串

使用c中的FILE流读取/写入套接字

如何使用strtok（）

如何在富编辑控件上实现鼠标单击URL

带控件的DialogEx：resize？

像（void **）和device_array这样的转换有什么问题？

示例：将`a * b`与`1.0`进行比较

如何在Python中重定向stderr？通过Python C API？