56

在高级向量扩展 (AVX) 中,比较指令如_m256_cmp_ps,最后一个参数是比较谓词。谓词的选择让我不知所措。它们似乎是类型、排序、信号的三重奏。例如,_CMP_LE_OS 是“小于或等于”的有序信号。

对于初学者来说,选择信令或非信令是否有性能原因,并且类似地,有序或无序比另一个更快?

“无信号”甚至是什么意思?我在文档中根本找不到这个。关于何时选择什么的任何经验法则?

以下是来自 avxintrin.h 的谓词选择:

/* Compare */
#define _CMP_EQ_OQ    0x00 /* Equal (ordered, non-signaling)  */
#define _CMP_LT_OS    0x01 /* Less-than (ordered, signaling)  */
#define _CMP_LE_OS    0x02 /* Less-than-or-equal (ordered, signaling)  */
#define _CMP_UNORD_Q  0x03 /* Unordered (non-signaling)  */
#define _CMP_NEQ_UQ   0x04 /* Not-equal (unordered, non-signaling)  */
#define _CMP_NLT_US   0x05 /* Not-less-than (unordered, signaling)  */
#define _CMP_NLE_US   0x06 /* Not-less-than-or-equal (unordered, signaling)  */
#define _CMP_ORD_Q    0x07 /* Ordered (nonsignaling)   */
#define _CMP_EQ_UQ    0x08 /* Equal (unordered, non-signaling)  */
#define _CMP_NGE_US   0x09 /* Not-greater-than-or-equal (unord, signaling)  */
#define _CMP_NGT_US   0x0a /* Not-greater-than (unordered, signaling)  */
#define _CMP_FALSE_OQ 0x0b /* False (ordered, non-signaling)  */
#define _CMP_NEQ_OQ   0x0c /* Not-equal (ordered, non-signaling)  */
#define _CMP_GE_OS    0x0d /* Greater-than-or-equal (ordered, signaling)  */
#define _CMP_GT_OS    0x0e /* Greater-than (ordered, signaling)  */
#define _CMP_TRUE_UQ  0x0f /* True (unordered, non-signaling)  */
#define _CMP_EQ_OS    0x10 /* Equal (ordered, signaling)  */
#define _CMP_LT_OQ    0x11 /* Less-than (ordered, non-signaling)  */
#define _CMP_LE_OQ    0x12 /* Less-than-or-equal (ordered, non-signaling)  */
#define _CMP_UNORD_S  0x13 /* Unordered (signaling)  */
#define _CMP_NEQ_US   0x14 /* Not-equal (unordered, signaling)  */
#define _CMP_NLT_UQ   0x15 /* Not-less-than (unordered, non-signaling)  */
#define _CMP_NLE_UQ   0x16 /* Not-less-than-or-equal (unord, non-signaling)  */
#define _CMP_ORD_S    0x17 /* Ordered (signaling)  */
#define _CMP_EQ_US    0x18 /* Equal (unordered, signaling)  */
#define _CMP_NGE_UQ   0x19 /* Not-greater-than-or-equal (unord, non-sign)  */
#define _CMP_NGT_UQ   0x1a /* Not-greater-than (unordered, non-signaling)  */
#define _CMP_FALSE_OS 0x1b /* False (ordered, signaling)  */
#define _CMP_NEQ_OS   0x1c /* Not-equal (ordered, signaling)  */
#define _CMP_GE_OQ    0x1d /* Greater-than-or-equal (ordered, non-signaling)  */
#define _CMP_GT_OQ    0x1e /* Greater-than (ordered, non-signaling)  */
#define _CMP_TRUE_US  0x1f /* True (unordered, signaling)  */
4

2 回答 2

38

如果其中一个操作数包含 NaN,则有序与无序与比较是否为真有关(请参阅有序/无序比较意味着什么?)。信令 (S) 与非信令(Q 表示安静?)将确定如果操作数包含 NaN 是否引发异常。

从性能的角度来看,这些都应该是相同的(当然假设没有引发异常)。如果您想在有 NaN 时收到警报,那么您需要发出信号。至于有序与无序,这完全取决于您要如何处理 NaN。

于 2013-07-15T23:06:13.987 回答
19

当任一操作数为 NaN 时,有序无序决定了结果值。

NaN 操作数的有序比较返回false

  • _CMP_EQ_OQ1.01.0给出true (普通平等)。
  • _CMP_EQ_OQNaN1.0给出false.
  • _CMP_EQ_OQ1.0NaN给出false.
  • _CMP_EQ_OQNaNNaN给出false.

NaN 操作数的无序比较返回true

  • _CMP_EQ_UQ1.01.0给出true(普通平等)。
  • _CMP_EQ_UQNaN1.0给出true.
  • _CMP_EQ_UQ1.0NaN给出true.
  • _CMP_EQ_UQNaNNaN给出true.

信令非信令之间的差异仅影响 MXCSR 的值。要观察效果,​​您需要清除 MXCSR,执行一个或多个比较,然后从 MXCSR 中读取(感谢 Peter Cordes 澄清这一点!)。

枚举值的顺序非常混乱。把它们放在桌子上会很有帮助......

比较 有序(非信令) 无序(无信号)
a < b _CMP_LT_OQ _CMP_NGE_UQ
a <= b _CMP_LE_OQ _CMP_NGT_UQ
a == b _CMP_EQ_OQ _CMP_EQ_UQ
一个!= b _CMP_NEQ_OQ _CMP_NEQ_UQ
a >= b _CMP_GE_OQ _CMP_NLT_UQ
a > b _CMP_GT_OQ _CMP_NLE_UQ
真的 _CMP_ORD_Q _CMP_TRUE_UQ(无用)
错误的 _CMP_FALSE_OQ(无用) _CMP_UNORD_Q

使用 MXCSR“信号”:

比较 有序(发信号) 无序(信号)
a < b _CMP_LT_OS _CMP_NGE_US
a <= b _CMP_LE_OS _CMP_NGT_US
a == b _CMP_EQ_OS _CMP_EQ_US
一个!= b _CMP_NEQ_OS _CMP_NEQ_US
a >= b _CMP_GE_OS _CMP_NLT_US
a > b _CMP_GT_OS _CMP_NLE_US
真的 _CMP_ORD_S _CMP_TRUE_US(没用)
错误的 _CMP_FALSE_OS(无用) _CMP_UNORD_S

枚举值的顺序可以解释为:

  • 前四个操作是规范的 ( EQ, LT, LE, UNORD)。请注意,如果0x00and0x03值为LE/UNORDUNORD/ LE,则四个规范操作可以被视为两个独立位的组合,但这对于它们的实际顺序是不可能的。

  • 其余的操作是前四个的转换。

  • 0x04位精确地反转了结果值,这也有效地切换了有序与无序。例如,LT_O成为NLT_U,它类似于GE,但请参阅无序命名规则。

  • 0x08位切换有序与无序(不更改任何其他内容)。

  • 同时设置0x040x08位会否定数值操作数的结果,同时保留 NaN 操作数的相同排序行为。例如,LT_O变成GE_O

  • 请注意,当比较是无序的(即设置了0x04or之一0x08)时,将使用否定名称:NGE代替LTNGT代替LENLT代替GENLE代替GT; 但是两者EQ和都NEQ需要定义有序和无序变体,因此这些名称仅在0x04否定转换下更改,而不是在0x08有序切换转换下更改。

  • FALSE/大多是/TRUE的无用0x08转换,总是返回相同的值。例如,如果两个操作数都是数字,或者其中一个是; ,则( ) 返回。加上,我们得到( ),它改变了操作数的行为,导致它在两种情况下都返回。UNORDORDUNORD0x03falsetrueNaN0x08FALSE0x0bNaNfalse

    有趣的事实:TRUE操作并不总是完全没用。在 AVX2 之前,它是将 YMM 寄存器设置为全 1 的最紧凑的机制。有关详细信息,请参阅https://godbolt.org/z/Yb5TjP(感谢 Peter Cordes)。

  • 0x10位切换信号与否。请注意,在规范操作中,LEandLT是信令,whileEQUNORDare not,因此设置该/0x10中删除信令并将其添加到/ops。因为这显然是明智的,一点也不令人困惑。LELTEQUNORD

于 2020-10-04T05:02:14.047 回答