1

我有一个正在处理的查询,它显示了我没有预料到的性能问题。这是到目前为止的查询。

INSERT INTO @Bridge (PolicyNumber, ProducerCode, BridgeDate, EffectiveDate, FirstName, LastName, LicenseNumber, BirthDate, Address, City, State, ZipCode)
SELECT     tab.col.value('@PolicyNumber', 'VARCHAR(10)') AS PolicyNumber,
           tab.col.value('@ProducerCode','VARCHAR(10)') as ProducerCode,
           tab.col.value('@BridgeDate','DATETIME') AS BridgeDate,
           tab.col.value('@EffectiveDate', 'DATETIME') as EffectiveDate,
           tab.col.value('@FirstName', 'VARCHAR(200)') as FirstName,
           tab.col.value('@LastName', 'VARCHAR(200)') as LastName,
           CASE 
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%0000%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%1111%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%2222%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%3333%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%4444%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%5555%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%6666%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%7777%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%8888%' THEN NULL
              WHEN tab.col.value('@LicenseNumber','VARCHAR(50)') LIKE '%9999%' THEN NULL
              ELSE tab.col.value('@LicenseNumber','VARCHAR(50)')
           END as LicenseNumber,
           tab.col.value('@BirthDate','DATETIME') as BirthDate,
           REPLACE(tab.col.value('@Address1','VARCHAR(300)'), ' APT ',' #') as Address1,
           tab.col.value('@City','VARCHAR(300)') as City,
           tab.col.value('@State','VARCHAR(5)') as State,
           tab.col.value('@ZipCode','VARCHAR(10)') as Zip
FROM       @xml.nodes('//rows/datarow') as tab(col)

SELECT     B.PolicyNumber, 
           B.ProducerCode, 
           B.BridgeDate,
           B.EffectiveDate,
           H.current_policy,
           H.cancel_date,
           H.first_eff_date,
           H.display_address,
           H.city,
           H.state,
           H.zip
FROM       @Bridge B
LEFT JOIN  (
SELECT     P.policy_id,
           P.current_policy,
           CASE 
              WHEN A.pobox <> '' THEN 'PO BOX ' + REPLACE(A.pobox,'PO BOX ','')
              ELSE RTRIM(A.house_num + ' ' + A.street_name + ' ' + CASE
                                                                      WHEN A.apt_num = '' THEN ''
                                                                      ELSE '#' + A.apt_num
                                                                    END)
           END as display_address,
           A.pobox,
           A.house_num,
           A.street_name,
           A.apt_num,
           A.city,
           MAX(A.policyimage_num) as policimage_num, --this is just to limit the results to the most recent
           S.state,
           A.zip,
           P.first_eff_date,
           P.cancel_date
FROM       Diamond.dbo.Policy P WITH (NOLOCK)
LEFT JOIN  Diamond.dbo.Address A WITH (NOLOCK)
ON         P.policy_id = A.policy_id
AND        A.nameaddresssource_id = 3
LEFT JOIN  Diamond.dbo.State S WITH (NOLOCK)
ON         A.state_id = S.state_id
WHERE      A.state_id IS NOT NULL
AND        P.current_policy NOT IN (SELECT PolicyNumber FROM @Bridge)
GROUP BY   P.policy_id,
           P.current_policy,
           P.cancel_date,
           P.first_eff_date,
           A.pobox,
           A.house_num,
           A.street_name,
           A.apt_num,
           A.city,
           S.state,
           A.zip) AS H
ON         B.Address = H.display_address
AND        B.State = H.state
AND        B.City = H.city
AND        SUBSTRING(B.ZipCode,1,5) = SUBSTRING(H.Zip,1,5)
AND        B.PolicyNumber != H.current_policy
WHERE      H.current_policy IS NOT NULL

此查询自行运行,大约在 1:30 秒内完成。但是如果我在 WHERE 子句中添加以下内容

AND       B.EffectiveDate != H.first_eff_date

突然,查询需要更长的时间才能返回结果。(在我写这篇文章的时候,我们已经超过 15 分钟了,而且还在继续)我认为简单地有一个子句来清除一些额外的行不会产生如此剧烈的效果,但显然它确实如此。我如何解决它,我只是好奇是否有人对它为什么会产生这种效果有任何想法?

4

1 回答 1

0

没有动手我只能猜测,但这里有一些地方我认为你可以整理并可能节省运行时间。

1,您重复了确保保单编号不匹配所需的工作。选择你拥有的两个之一,而不是两个。我建议尝试两者看看哪个更快。

即:

AND        P.current_policy NOT IN (SELECT PolicyNumber FROM @Bridge)

会做同样的事情,你不需要两者。

AND        B.PolicyNumber != H.current_policy

2,值得尝试从您的子查询中删除所有分组 - 您实际上并没有policimage_num用于任何事情。那么为什么要分组呢?如果您担心从 Address 返回许多行,那么您可以在列集上使用 DISTINCT,这可能会更快。

3、A.state_id 是可以为空的值吗?如果不考虑尝试 INNER JOIN 到地址并删除空检查。

4,老实说,我根本没有看到该子查询的明显原因,这似乎使事情过于复杂。如果没有它,您是否不能简单地将表连接在一起(如果需要,再次使用 DISTINCT)?

换句话说,进行调整,我敢打赌,如果您尝试其中的一些想法,您可以将其低于原始运行时间。

于 2013-07-25T14:32:25.713 回答