3

我有一个产品可以从客户端导入某些数据文件(即:用户目录等),并将导出其他类型的数据(即:报告等)。目前所有导入和导出均采用 CSV 格式 (rfc4180),并且文件通过托管文件传输来回传递。

我越来越多地看到客户要求转换和重新配置这些数据文件以在其遗留系统中使用。对于导入数据文件,这是一些奇怪的请求,例如:

“我们将向您传递 20 列,从应用 $business_logic 到第 4、7、5、18、19 列,以确定您的系统在第 21 列中需要的实际值,然后删除那些原始列,因为它们并不是真正有用的他们自己”

或者

“第 2 列中的值用零填充,请去掉它。”

对于数据导出文件,它的请求如下:

“您正在向我们发送 .csv,但我们需要采用特殊的固定宽度格式。”

或者

“您正在用小数格式化数字。删除那些,并以 8 个零作为前缀。”

当然,我们加入的每个客户都有不同的要求。我很犹豫是否要潜入并从头开始写一些东西,因为我想在构建不同格式的文件(csv、tsv、固定宽度、excel、石碑)和处理字符编码的过程中会有各种各样的问题,等等,等等。我正在寻找的是某种开发框架(或商业产品),它可以让我们快速满足越来越多(和种类)的数据转换请求。轻量级和简单的东西是首选。

任何想法或经验表示赞赏。

4

1 回答 1

1

我不确定它是否完全适合,但您可以查看streamsets.com

它是用于数据移动和轻量级转换的开源工具。它允许您提供最少的输入模式(例如,我有 CSV 文件),因此您不必处理您提到的很多事情。

*完全披露我是 StreamSets 的工程师

于 2015-11-06T04:17:37.137 回答