试图寻求有关策划广泛 ETL 流程的最佳方式的一些指导。我的管道有一个相当时尚的提取部分,并以简洁的方式加载到指定的文件中;但我能想到的唯一方法是进行转换步骤是一系列变量赋值:
a = ['some','form','of','petl','data']
b = petl.addfield(a, 'NewStrField', str(a))
c = petl.addrownumbers(b)
d = petl.rename(c, 'row', 'ID')
.......
重新格式化以分配相同的变量名是有道理的,但不利于可读性:
a = ['some','form','of','petl','data']
a = petl.addfield(a, 'NewStrField', str(a))
a = petl.addrownumbers(a)
a = petl.rename(a, 'row', 'ID')
.......
我已经阅读了多个这样的方法调用:
a = ['some','form','of','data']
result = petl.addfield(a, 'NewStrField', str(a))
.addrownumbers(a)
.rename(a, 'row', 'ID')
.......
但这不起作用,因为函数需要表作为传递的第一个参数。
我缺少一些基本的东西吗?我不愿意相信在商业上这样做的正确方法涉及 1000+ LOC?