4

我正在尝试了解 Azure Cosmos DB 中的查询成本

我无法弄清楚以下示例中有什么区别以及为什么使用 fold() 会降低成本:

g.V().hasLabel('item').project('itemId', 'id').by('itemId').by('id')

产生以下输出:

[
  {
    "itemId": 14,
    "id": "186de1fb-eaaf-4cc2-b32b-de8d7be289bb"
  },
  {
    "itemId": 5,
    "id": "361753f5-7d18-4a43-bb1d-cea21c489f2e"
  },
  {
    "itemId": 6,
    "id": "1c0840ee-07eb-4a1e-86f3-abba28998cd1"
  },           
....    
  {
    "itemId": 5088,
    "id": "2ed1871d-c0e1-4b38-b5e0-78087a5a75fc"
  }
]

成本为 15642 RU x 0.00008 $/RU = 1.25$

g.V().hasLabel('item').project('itemId', 'id').by('itemId').by('id').fold()

产生以下输出:

[
  [
    {
      "itemId": 14,
      "id": "186de1fb-eaaf-4cc2-b32b-de8d7be289bb"
    },
    {
      "itemId": 5,
      "id": "361753f5-7d18-4a43-bb1d-cea21c489f2e"
    },
    {
      "itemId": 6,
      "id": "1c0840ee-07eb-4a1e-86f3-abba28998cd1"
    },
...
    {
      "itemId": 5088,
      "id": "2ed1871d-c0e1-4b38-b5e0-78087a5a75fc"
    }
  ]
]

成本为 787 RU x 0.00008$/RU = 0.06$

g.V().hasLabel('item').values('id', 'itemId')

具有以下输出:

[
  "186de1fb-eaaf-4cc2-b32b-de8d7be289bb",
  14,
  "361753f5-7d18-4a43-bb1d-cea21c489f2e",
  5,
  "1c0840ee-07eb-4a1e-86f3-abba28998cd1",
  6,
...
  "2ed1871d-c0e1-4b38-b5e0-78087a5a75fc",
  5088
]

成本:10639 RU x 0.00008 $/RU = 0.85$

g.V().hasLabel('item').values('id', 'itemId').fold()

具有以下输出:

[
  [
    "186de1fb-eaaf-4cc2-b32b-de8d7be289bb",
    14,
    "361753f5-7d18-4a43-bb1d-cea21c489f2e",
    5,
    "1c0840ee-07eb-4a1e-86f3-abba28998cd1",
    6,
...
    "2ed1871d-c0e1-4b38-b5e0-78087a5a75fc",
    5088
  ]
]

成本为 724.27 RU x 0.00008 $/RU = 0.057$

如您所见,对成本的影响是巨大的。这只是大约。3200 个节点,属性很少。

我想了解为什么添加折叠更改如此之多。

4

1 回答 1

1

我试图重现您的示例,但不幸的是结果相反(Cosmos 中有 500 个顶点):

g.V().hasLabel('test').values('id')

或者

g.V().hasLabel('test').project('id').by('id') 

分别给出 86.08 和 91.44 RU,而fold()步骤之后的相同查询导致 585.06 和 590.43 RU。

根据 TinkerPop文档,我得到的这个结果似乎很好:

在某些情况下,遍历流需要一个“屏障”来聚合所有对象并发出作为聚合函数的计算。fold()-step (map) 是其中的一个特定实例。

知道 Cosmos 对访问对象的数量和在这些获得的对象上完成的计算(在这种特殊情况下为折叠)收取 RU费用,折叠的更高成本是预期的。

您可以尝试为您的遍历运行executionProfile()步骤,这可以帮助您调查您的案例。当我尝试时:

g.V().hasLabel('test').values('id').executionProfile()

我为fold()获得了 2 个额外的步骤(为简洁起见省略了相同的输出部分),这个ProjectAggregation是结果集从 500 映射到 1 的位置:

 ...
      {
        "name": "ProjectAggregation",
        "time": 165,
        "annotations": {
          "percentTime": 8.2
        },
        "counts": {
          "resultCount": 1
        }
      },
      {
        "name": "QueryDerivedTableOperator",
        "time": 1,
        "annotations": {
          "percentTime": 0.05
        },
        "counts": {
          "resultCount": 1
        }
      }
...
于 2019-07-07T16:05:46.553 回答