-2

我有这种情况,2个文件。

输入文件 2 个字段 6 行:

1|BANANA ON CAGES    
2|APPLE CHIPS    
3|SPORT CARS    
4|PLANES    
5|HOUSE    
6|BOTTLES

列出文件 2 个字段 4 行

BANANA|FRUIT    
APPLE|FRUIT    
CAR|TRANSPORT    
PLANE|TRANSPORT

我希望这个结果:

输出文件 3 个字段 6 行

1|BANANA ON CAGES|FRUIT    
2|APPLE CHIPS|FRUIT    
3|SPORT CARS|TRANSPORT    
4|PLANES|TRANSPORT    
5|HOUSE    
6|BOTTLES

我必须使用 PDI。加入文件(笛卡尔积)太慢。输入文件大约 1,000,000 行,列表文件大约 300,000 行

4

1 回答 1

0

您的列表文件是否需要是动态的或内容是相当静态的?

如果是静态的,您可以尝试使用 RegEx 进行字符串替换。就像是:

在此处输入图像描述

设置类别后,您只需要从项目描述中过滤 where category != 。

不知道它会如何处理这么多的记录。直到现在才使用这一步,记录很少。

编辑:我刚刚看到加入(笛卡尔)有 REGEXP 选项。也许它比 CONTAINS 快(我认为你一直在使用?)。到目前为止,这样设置会更好。

祝你好运!

于 2016-12-07T22:36:24.240 回答