sql-server - django exclude 的性能问题

Question

我有一个 Django 1.8 应用程序，我正在使用一个 MsSQL 数据库，以 pyodbc 作为数据库后端（使用“django-pyodbc-azure”模块）。

我有以下型号：

class Branch(models.Model):
    name = models.CharField(max_length=30)
    startTime = models.DateTimeField()

class Device(models.Model):
    uid = models.CharField(max_length=100, primary_key=True)
    type = models.CharField(max_length=20)
    firstSeen = models.DateTimeField()
    lastSeen = models.DateTimeField()

class Session(models.Model):
    device = models.ForeignKey(Device)
    branch = models.ForeignKey(Branch)
    start = models.DateTimeField()
    end = models.DateTimeField(null=True, blank=True)

我需要查询会话模型，并且我想排除一些具有特定设备值的记录。所以我发出以下查询：

sessionCount = Session.objects.filter(branch=branch)
                          .exclude(device__in=badDevices)                                             
                          .filter(end__gte=F('start')+timedelta(minutes=30)).count()

badDevices 是一个包含大约 60 项的设备 ID 的预填充列表。

badDevices = ['id-1', 'id-2', ...]

此查询大约需要 1.5 秒才能完成。如果我从查询中删除排除项，大约需要 250 毫秒。

我为这个查询集打印了生成的 sql，并在我的数据库客户端中进行了尝试。在那里，两个版本都在大约 250 毫秒内执行。

这是生成的 SQL：

SELECT [session].[id], [session].[device_id], [session].[branch_id], [session].[start], [session].[end] 
FROM [session] 
WHERE ([session].[branch_id] = my-branch-id AND 
NOT ([session].[device_id] IN ('id-1', 'id-2', 'id-3',...)) AND 
DATEPART(dw, [session].[start]) = 1 
AND [session].[end] IS NOT NULL AND 
[session].[end] >= ((DATEADD(second, 600, CAST([session].[start] AS datetime)))))

因此，在数据库级别使用排除似乎不会影响查询性能，但在 django 中，如果我添加排除部分，查询运行速度会慢 6 倍。这可能是什么原因造成的？

score 6 · Accepted Answer

一般的问题似乎是 django 正在做一些额外的工作来准备exclude条款。在这一步之后，当 SQL 生成并发送到数据库时，django 端没有发生任何可能导致如此显着延迟的有趣事情。

在您的情况下，可能导致这种情况的一件事是对badDevices. 例如，如果badDevices是，QuerySet那么 django 可能正在执行badDevices查询，只是为了准备实际查询的 SQL。device在具有非默认主键的情况下，可能会发生类似的事情。

另一件可能会延迟 SQL 准备的事情当然是django-pyodbc-azure。也许它在编译查询时做了一些奇怪的事情，它成为了一个瓶颈。

不过，这都是疯狂的猜测，因此如果您仍然遇到此问题，请同时发布Device和Branch模型，以及badDevices查询生成的 SQL 的确切内容。那么也许至少可以消除一些场景。

编辑：我认为它必须是Device.uid领域。可能 django 或 pyodbc 对非默认主键感到困惑，并在生成查询时获取所有设备。尝试两件事：

替换device__in为device_id__in,device__pk__in并device__uid__in再次检查每一项。也许更明确的查询会更容易让 django 转换成 SQL。您甚至可以尝试用替换branch，branch_id以防万一。

如果上述方法不起作用，请尝试将 exclude 表达式替换为原始 SQL where 子句：

# add quotes (because of the hyphens) & join
badDevicesIdString = ", ".join(["'%s'" % id for id in badDevices])

# Replaces .exclude()
... .extra(where=['device_id NOT IN (%s)' % badDevicesIdString])

如果两者都不起作用，那么很可能问题出在整个查询上，而不仅仅是exclude. 在这种情况下还有更多选择，但请先尝试上述方法，如有必要，我稍后会更新我的答案。

score 2 · Accepted Answer

只想分享一个与 MySQL 和 exclude 子句性能类似的问题，以及它是如何解决的。

运行 exclude 子句时，具有“in”查找的列表实际上是我使用 values_list 方法获得的查询集。检查 MySQL 执行的排除查询，“in”对象不是值，而是另一个查询。此行为会影响特定大型查询的性能。

为了解决这个问题，我没有传递查询集，而是将它平展在一个 python 值列表中。通过这样做，每个值都作为 in 查找中的参数传递，并且性能得到了真正的提高。

sql-server - django exclude 的性能问题

2 回答 2

Related

Reference