0

如何使用Daxstudio检查两个 DAX 查询中的哪一个具有更好的性能。在示例中,查询返回完全相同的结果。然而,统计数据不同,显示出不明确的提示。从两个查询的比较中,我们可以掌握哪些有用的信息?

比较查询统计摘要:

+-------------------------+------------+---------+---------+
|                         |            | Query 1 | Query 2 |
+-------------------------+------------+---------+---------+
| Server timings          | Total      |       7 |       5 |
|                         | SE CPU     |       0 |       0 |
|                         | FE         |       6 |       4 |
|                         | SE         |       1 |       1 |
|                         | SE Queries |       3 |       2 |
|                         | SE Cashe   |       0 |       0 |
+-------------------------+------------+---------+---------+
| Query plan, no of lines | physical   |       7 |      28 |
|                         | logical    |      13 |       9 |
+-------------------------+------------+---------+---------+
  • 第二个查询更快,但计划繁琐且更长。2次扫描。
  • 第一个查询具有更长的服务器时间,但查询计划更简洁、更短。3 次扫描。

因此,服务器计时有利于第二个查询,但其复杂的查询计划引起了人们的关注。了解统计信息和查询计划后,如果 SearchTable 有数百万行,我们可以期待什么?我们不应该喜欢更简单的查询计划吗,因为 DAX 优化可能会在未来发生变化,对他们有利?

样本数据。我们有两个表 SearchTable 和 ThisTable:

SearchTable = 
DATATABLE (
    "Category", STRING,
    "Product", STRING,
    "Amount", INTEGER,
    {
        { BLANK ()      , "apple"       , 1 },
        { "Fruits"      , "apple"       , 1 },  -- watch out for multiple apples!
        { "Yummy Fruits", "apple"       , 2 },
        { "Fruits"      , "banana"      , 4 },
        { "Fruits"      , "wolfberry"   , 5 },
        { "Fruits"      , "cherry"      , 3 },
        { "Vegetables"  , "carrot"      , 3 },
        { "Vegetables"  , "potato"      , 1 },
        { "Vegetables"  , "onion"       , 7 },
        { "Fruits"      , "cherry"      , 3 }        
    }
)
---
ThisTable = 
DATATABLE (
    "Product", STRING,
    {
        { "apple" },
        { "banana" },
        { "blackberry" },
        { "carrot" },
        { "cherry" },
        { "onion " },
        { "potato" },
        { "watermelon" },
        { "wolfberry" }
    }
)

查询 1 号。

EVALUATE
ADDCOLUMNS (
    VALUES ( ThisTable[Product] ),
    "FilterLookup",
    VAR LookupKey = ThisTable[Product]
    RETURN
        CALCULATE ( MAX ( SearchTable[Category] ), SearchTable[Product] = LookupKey )
)

该查询具有以下统计信息:

在此处输入图像描述

和查询计划: 在此处输入图像描述

查询 2。

EVALUATE
ADDCOLUMNS (
    VALUES ( ThisTable[Product] ),
    "FilterLookup", MAXX (
        FILTER ( SearchTable, SearchTable[Product] = ThisTable[Product] ),
        SearchTable[Category]
    )
)

统计: 在此处输入图像描述

查询计划: 在此处输入图像描述

问题与以下有关:

DAX 在不相关的表中查找第一个非空白值

您可以下载包含示例数据的 pbix 文件:

DAX 查找前 1 个值.pbix

4

2 回答 2

1

您无法从 DAX Studio 中真正看出,什么时候数据集如此之小,但在大多数情况下,具有最简单查询计划的查询将是最快的。查询#1就是这种情况,这确实是您情况下最快的查询(忽略低于~20 ms的所有时间测量值 - 因为它不可靠,因为数据集太小了)。

另外,我想补充一点,以下查询应该提供相同的结果,并且速度更快,查询计划比您的两个查询更简单:

ADDCOLUMNS(
    ThisTable,
    "FilterLookup",
        LOOKUPVALUE(SearchTable[Category], SearchTable[Product], ThisTable[Product])
)

编辑:我没有注意到“苹果”在SearchTable[Product]列中出现了两次。这将导致上述调用LOOKUPVALUE(...)失败,因为它无法为SearchTable[Category].

于 2020-01-23T23:21:44.610 回答
1

由于固定的开销成本,很难将性能从小型数据集推断到大型数据集,因此我建议在更大的数据表上进行测试。

通常,您希望尽可能避免使用迭代器MAXXMAX因为后者具有引擎优化。很少有规则在优化查询中是通用的,因此鉴于您显示的数据,这是一个相当基于意见的问题。

于 2020-01-23T16:54:00.567 回答