ssis - 为什么 SSIS TOKEN 函数无法计算相邻的列分隔符？

Question

我在名为 TOKEN() 的表达式编辑器中遇到了 SQL Server Integration Services 2012 的新字符串函数的问题。

这应该可以帮助您解析分隔记录。如果记录来自平面文件，您可以使用平面文件源执行此操作。在这种情况下，我正在处理以字符串形式存储在数据库 VARCHAR 字段中的旧分隔导入记录。现在需要将它们提取、处理并重新导出为分隔字符串。例如：

1^苹果^0001^01/01/2010^食蚁兽^A1
2^香蕉^0002^03/15/2010^熊^B2
3^蔓越莓^0003^4/15/2010^乌鸦^C3

如果这些字符串在名为 OldImportRecord 的列中，分隔符是插入符号（如图所示），并且我们希望将第五个字段放入派生列中，我们将使用如下表达式：

TOKEN(OldImportRecord,"^",5)

这会返回 Aneater、Bear、Crow 等。其实我们可以为这条记录中的每个字段创建 Derived Columns（注意索引是从一开始的），根据需要更改它们，然后再构建另一个分隔记录用于导出.

这就是问题所在。如果我们的某些数据包含一些空字符串（或呈现为空字符串的 Null）怎么办？

4^^0004^6/15/2010^鸭^D4

TOKEN() 无法计算相邻的列分隔符，这会导致列数丢失。现在它只看到五列而不是六列。我们的 TOKEN(OldImportRecord,"^",5) 返回“D4”而不是预期的“Duck”。当我们提取第四列时，我们最终尝试将“Duck”放入 Date 列中，然后各种有趣的事情接踵而至。

这是部分解决方法：

TOKEN(REPLACE(OldImportRecord,"^^","^ ^"),"^",5)

请注意，这会错过每隔一个分隔符对，因此对于像“5^^^^Emu^E5”这样的字符串，它会失败，它在 REPLACE() 之后看起来像“5^ ^^ ^Emu^E5”。列数仍然错误。

所以这是我的完整解决方法。这包括两个嵌套的 REPLACE statements()、一个用于删除多余空格的 RTRIM() 和一个 DT_STR 强制转换，因为我想将结果保留在 VARCHAR 中：

(DT_STR,255,1252)RTRIM(TOKEN(REPLACE(REPLACE(OldImportRecord,"^^","^ ^"),"^^","^ ^"),"^",5))

我发布此信息以供参考，因为其他人也可能遇到此问题。

有没有人有更好的解决方法，甚至是真正的解决方案？

score 2 · Accepted Answer

问题原因：

TOKENSSIS 中的方法使用C++strtok中函数的实现。我在阅读Microsoft® SQL Server® 2012 Integration Services一书时收集了这些信息。它在第113页的注释中提到（我喜欢这本书！很多很好的信息。）。

我搜索了strtok函数的实现，找到了以下链接。

INFO: strtok(): C Function -- Documentation Supplement - 此链接中的代码示例显示该函数确实忽略了连续的分隔符。

以下 SO 问题的答案指出该strtok函数旨在忽略连续分隔符。

需要知道使用 strtok() 的两个标记分隔符之间何时没有数据出现

具有连续分隔符的 strtok_s 行为

我认为TOKENandTOKENCOUNT函数正在按照设计工作，但 SSIS 是否应该这样做可能是 Microsoft SSIS 团队的一个问题。

原始帖子 - 以上部分是更新：

我根据您的数据输入在 SSIS 2012 中创建了一个简单的包。正如您在问题中所描述的那样，该TOKEN功能的行为不符合预期。我同意你的观点，该功能似乎不起作用。这篇文章不是对您原始问题的回答。

这是以相对简单的方式编写表达式的另一种方法。这仅在输入记录中的最后一段始终具有值（例如A1、B2、C3等）时才有效。

表达式可以重写为：

该语句将输入记录作为参数，分隔符插入符号 (^) 作为第二个参数。第三个参数计算被分隔符分割时记录中的段总数。如果您在最后一个段中有数据，则保证有两个段。然后，您可以减去 1 以获取倒数第二段。

(DT_STR,50,1252)TOKEN(OldImportRecord,"^",TOKENCOUNT(OldImportRecord,"^") - 1)

我创建了一个带有数据流任务的简单包。OLE DB 源检索数据，派生的转换按照下面的屏幕截图解析和拆分数据。然后将输出插入到目标表中。您可以在最后一个屏幕截图中看到源表和目标表。目标表有两列。第一列存储倒数第二个段数据和基于分隔符的段计数（这又是不正确的）。您可以注意到最后一条记录没有获取正确的结果。如果最后一条记录没有 value 8，那么上面的表达式将失败，因为表达式将计算为零索引。

希望这有助于简化您的表达方式。

如果您没有收到其他人的消息，我建议您在Microsoft Connect 网站中记录此问题。

创建表并填充脚本：

CREATE TABLE [dbo].[SourceTable](
    [OldImportRecord] [varchar](50) NOT NULL
) ON [PRIMARY]
GO

CREATE TABLE [dbo].[DestinationTable](
    [NewImportRecord] [varchar](50) NOT NULL,
    [CaretCount] [int] NOT NULL
) ON [PRIMARY]
GO

INSERT INTO dbo.SourceTable (OldImportRecord) VALUES 
    ('1^Apple^0001^01/01/2010^Anteater^A1'),
    ('2^Banana^0002^03/15/2010^Bear^B2'),
    ('3^Cranberry^0003^4/15/2010^Crow^C3'),
    ('4^^0004^6/15/2010^Duck^D4'),
    ('5^^^^Emu^E5'),
    ('6^^^^Geese^F6'),
    ('^^^^Pheasant^G7'),
    ('8^^^^Sparrow^');
GO

数据流任务中的派生列转换：

派生列变换

源表和目标表中的数据：

源和目标表数据

score 2 · Accepted Answer

TOKEN 不仅会跳过相邻的定界符，还会跳过前导和尾随定界符。因此，使用您的示例，如果您有一个如下所示的“好”字段：

1^苹果^0001^01/01/2010^食蚁兽^A1

后跟一个带有相邻和前导分隔符的分隔符，如下所示：

^^^0004^6/15/2010^Duck^

TOKENCOUNT 只会找到两个分隔符，您最终会得到 0004 分配给 Token1，6/15/2010 分配给 Token2，Duck 分配给 Token3。

我使用了另一种替换。我没有在相邻的分隔符之间放置空格，这对引导或训练没有帮助，而是使用替换来用我在文本中绝对找不到的字符包围分隔符。以下表达式对我很有效。它是罗嗦的，但它就是这样。

(DT_STR,255,1252)REPLACE(TOKEN(REPLACE(OldImportRecord,"^","~^~"),"^",1),"~","")

当然，您可以将数字 1 替换为您想要的任何 Token，并根据您的需要调整演员阵容。希望有帮助。

ssis - 为什么 SSIS TOKEN 函数无法计算相邻的列分隔符？

2 回答 2

问题原因：

原始帖子 - 以上部分是更新：

Related

Reference