瓶颈可能不在你认为的地方。它可能是降低包性能的目标组件。包转换等到批处理数据插入目标。这使我们相信以黄色显示的转换正在缓慢执行。实际上,就我的经验而言,查找转换任务非常快。
以下示例从平面文件源读取 100 万行并插入 SQL Server。尽管它只使用一个查找,但我在这里提供示例的原因是为了让您了解拥有多个目标组件。拥有多个目的地来接受各种转换处理的数据将加快打包速度。
我希望这个例子能让你了解如何提高你的包性能。
分步过程:
在 SQL Server 数据库中,创建两个表,即dbo.ItemInfo
和dbo.Staging
。脚本部分下提供了创建表查询。这些表的结构显示在屏幕截图 # 1中。ItemInfo
将保存实际数据,Staging
表将保存暂存数据以比较和更新实际记录。Id
这两个表中的列都是自动生成的唯一标识列。IsProcessed
表 ItemInfo 中的列将用于识别和删除不再有效的记录。
创建一个 SSIS 包并创建5 个变量,如屏幕截图 # 2所示。我.txt
为制表符分隔的文件使用了扩展名,因此使用*.txt
了变量FileExtension中的值。FilePath
变量将在运行时赋值。FolderLocation
变量表示文件的位置。变量表示在预加载和加载后操作期间使用的存储过程SQLPostLoad
。SQLPreLoad
这些存储过程的脚本在脚本部分提供。
创建一个指向 SQL Server 数据库的 OLE DB 连接。创建一个平面文件连接,如屏幕截图 # 3和 # 4所示。平面文件连接列部分包含列级别信息。屏幕截图# 5显示了列数据预览。
如屏幕截图# 6所示配置控制流任务。配置任务Pre Load
,如截图# Post Load
7- # 10所示。Pre Load 将截断临时表并将ItemInfo 表中所有行的标志设置为 false。Post Load 将更新更改并删除数据库中未在文件中找到的行。请参阅这些任务中使用的存储过程,以了解这些任务中正在执行的操作。Loop Files
IsProcessed
Execute SQL
双击 Load Items 数据流任务并对其进行配置,如屏幕截图 # 11所示。Read File
是配置为使用平面文件连接的平面文件源。Row Count
是派生列转换,其配置显示在 screenshto # 12中。Check Exist
是一个查找转换,其配置显示在屏幕截图 # 13 - # 15中。查找无匹配输出重定向到Destination Split
左侧。查找匹配输出重定向到Staging Split
左侧。Destination Split
并具有与屏幕截图 # 16Staging Split
中所示完全相同的配置. 目的地和临时表有 9 个不同目的地的原因是为了提高包的性能。
所有目标任务 0-8 都配置为将数据插入表dbo.ItemInfo
中,如屏幕截图 # 17所示。所有 staging 任务 0-8 都配置为插入数据dbo.Staging
,如屏幕截图 # 18所示。
在平面文件连接管理器上,将 ConnectionString 属性设置为使用变量 FilePath,如屏幕截图 # 19所示。这将使包在遍历文件夹中的每个文件时能够使用变量中设置的值。
测试场景:
Test results may vary from machine to machine.
In this scenario, file was located locally on the machine.
Files on network might perform slower.
This is provided just to give you an idea.
So, please take these results with grain of salt.
包在具有 Xeon 单核 CPU 2.5GHz 和 3.00 GB RAM 的 64 位机器上执行。
加载了一个带有1 million rows
. 包在大约2 分 47 秒内执行。请参阅屏幕截图# 20和# 21。
使用测试查询部分下提供的查询来修改数据,以在包的第二次运行期间模拟更新、删除和创建新记录。
1 million rows
在数据库中执行以下查询后,加载包含以下查询的相同文件。包在大约1 分 35 秒内执行。请参阅屏幕截图# 22和# 23。请注意屏幕截图 # 22中重定向到目标和临时表的行数。
希望有帮助。
测试查询:
.
--These records will be deleted during next run
--because item ids won't match with file data.
--(111111 row(s) affected)
UPDATE dbo.ItemInfo SET ItemId = 'DEL_' + ItemId WHERE Id % 9 IN (3)
--These records will be modified to their original item type of 'General'
--because that is the data present in the file.
--(222222 row(s) affected)
UPDATE dbo.ItemInfo SET ItemType = 'Testing' + ItemId WHERE Id % 9 IN (2,6)
--These records will be reloaded into the table from the file.
--(111111 row(s) affected)
DELETE FROM dbo.ItemInfo WHERE Id % 9 IN (5,9)
平面文件连接列
。
Name InputColumnWidth DataType OutputColumnWidth
---------- ---------------- --------------- -----------------
Id 8 string [DT_STR] 8
ItemId 11 string [DT_STR] 11
ItemName 21 string [DT_STR] 21
ItemType 9 string [DT_STR] 9
脚本:( 创建表和存储过程)
。
CREATE TABLE [dbo].[ItemInfo](
[Id] [int] IDENTITY(1,1) NOT NULL,
[ItemId] [varchar](255) NOT NULL,
[ItemName] [varchar](255) NOT NULL,
[ItemType] [varchar](255) NOT NULL,
[IsProcessed] [bit] NULL,
CONSTRAINT [PK_ItemInfo] PRIMARY KEY CLUSTERED ([Id] ASC),
CONSTRAINT [UK_ItemInfo_ItemId] UNIQUE NONCLUSTERED ([ItemId] ASC)) ON [PRIMARY]
GO
CREATE TABLE [dbo].[Staging](
[Id] [int] IDENTITY(1,1) NOT NULL,
[ItemId] [varchar](255) NOT NULL,
[ItemName] [varchar](255) NOT NULL,
[ItemType] [varchar](255) NOT NULL,
CONSTRAINT [PK_Staging] PRIMARY KEY CLUSTERED ([Id] ASC)) ON [PRIMARY]
GO
CREATE PROCEDURE [dbo].[PostLoad]
AS
BEGIN
SET NOCOUNT ON;
UPDATE ITM
SET ITM.ItemName = STG.ItemName
, ITM.ItemType = STG.ItemType
, ITM.IsProcessed = 1
FROM dbo.ItemInfo ITM
INNER JOIN dbo.Staging STG
ON ITM.ItemId = STG.ItemId;
DELETE FROM dbo.ItemInfo
WHERE IsProcessed = 0;
END
GO
CREATE PROCEDURE [dbo].[PreLoad]
AS
BEGIN
SET NOCOUNT ON;
TRUNCATE TABLE dbo.Staging;
UPDATE dbo.ItemInfo
SET IsProcessed = 0;
END
GO
截图#1:
截图#2:
截图#3:
截图#4:
截图#5:
截图#6:
截图#7:
截图#8:
截图#9:
截图#10:
截图 #11:
截图#12:
截图#13:
截图#14:
截图#15:
截图#16:
截图#17:
截图#18:
截图#19:
截图#20:
截图#21:
截图#22:
截图#23: