0

我有一个担心,我认为这可能是档案的一个很好的主题,因为我想很多人在他们的职业生涯中可能会遇到类似的问题。我正在寻找关于将多个供应商之间的数据映射到标准格式的任何/所有建议、想法和评论。

我的故事:

目前,我收到两种不同类别的数据(又名“常量”和“变量”)。包含过多的财务信息[即。贷款、利率、抵押贷款、地址等...]。每个供应商都有自己的格式风格和命名约定,与我自己的不同。

集 1) 常量集:每天包含来自不同供应商的大约 25 个 CSV 文件。每个供应商的数据都有不同的名称(列标题),但是他们的数据格式与我的相似。

设置 2) 变量集:包含大约 20 个文件,尽管它们的格式和标题几乎总是唯一的(即我有一个名为“贷款利率”的数据集,我的供应商称之为“利率”、“LnRt”、“rT ”、“PxrT”等。)。因此我需要浏览每个文件,首先清理数据的格式(正确的大小写格式,将名称解析为不同的列,转换日期/时间格式等)然后重新标记所有内容。

我目前清理数据的方法是在 Excel 中使用“上传模板”。在我清理了所有数据的格式后,我将供应商文件中的值复制到我的模板中。然后我将模板中的数据加载到临时文件中。SQL 服务器上的表(暂存表)。随后运行一些 SQL 脚本,将值插入到数据库 (DB) 中的适当位置。

正如您可能想象的那样,整个过程非常繁琐耗时 - 继续手动执行此操作不再是真正的选择。

关于我的问题:

1)你做过这样的事情吗?如果是这样,你是怎么做的?

2)任何想法如何根据另一张表中的名称列表快速更改列名(标题)?

3) 您对如何改进流程有什么建议吗?

4)你知道任何可以自动化这个过程的软件吗?

4

1 回答 1

1

三个字母:ETL

点击谷歌,有几个免费的 ETL 工具。你正在用你的过程重新发明轮子。

于 2014-07-11T17:53:13.290 回答