我有一个大约 1100 万行的巨大文本文件,我无法更改它,但我希望能够将其处理成可用的格式。它的基本结构如下:
Field1 : Type of data
Field2 : Values
还有一个### 来标记文件中产品的开始和结束(不过,不确定这对我有帮助)
数据中包含大约 200,000 个独特的产品,以及与之相关的所有数据。Field1 值将重复(例如产品、价格、描述),并且值将不同以识别产品的属性。我将制表符分隔的文件导入 Access 并使用 SQL 来提取我需要的数据(所有产品的完整列表),但是能够进一步处理它并将所有部分列为一列会非常有帮助,然后通过说价格,描述等
我运行以提取产品的查询是:
select
Field1,
Field2
from Index
where Field1 = 'PRODUCT';
这给了我所有产品的列表
我不确定扩展上述内容是否是正确的方法,就好像我将其扩展为一样(请原谅语法,我必须在 SQL 上进行一次 bash 才能做到这一点)
select
Field1,
Field2
from Index
where Field1 = 'PRODUCT'
and Field1 = 'PRICE';
(如果我让它工作,我相信它不会)我将处于与我刚刚得到的大致相同的位置
Product
Price
Product
Price
x200000
我想做的是:
Product Price Description
11111 1.11 This is part 1
11112 1.12 This is part 2
我确实寻找过类似的例子,但我猜人们习惯于使用更好的输入文件......哦,从我看到的情况来看,SSIS 可能是关键?同样,从来没有玩过它,但对它来说是全新的,并且想看看这是否可以通过 SQL 实现。
非常感谢
例子 :
###
PRODUCT A1000102
SHORT_DESC SMALL COG
PRICE 1.15
RANDOM_ASSOCIATED B
###
PRODUCT A1000103
SHORT_DESC MEDIUM COG
PRICE 1.18
RANDOM_ASSOCIATED B
ROTATION YES
###
PRODUCT A1000104
SHORT_DESC L COG
PRICE 1.15
RANDOM_ASSOCIATED 2
###
PRODUCT A1000105
SHORT_DESC TITANIUM COG
PRICE 4.12
RANDOM_ASSOCIATED B
###
PRODUCT A1000106
SHORT_DESC SMALL TITANIUM COG
PRICE 1.15
RANDOM_ASSOCIATED A
COLOUR BLUE
###
PRODUCT A1000107
SHORT_DESC SMALL COG
PRICE 1.15
RANDOM_ASSOCIATED C
COUNTRY SWISS
###
PRODUCT A1000108
SHORT_DESC SMALL COG
PRICE 1.15
RANDOM_ASSOCIATED X
WEIGHT 9.54KG
###