我有一个担心,我认为这可能是档案的一个很好的主题,因为我想很多人在他们的职业生涯中可能会遇到类似的问题。我正在寻找关于将多个供应商之间的数据映射到标准格式的任何/所有建议、想法和评论。
我的故事:
目前,我收到两种不同类别的数据(又名“常量”和“变量”)。包含过多的财务信息[即。贷款、利率、抵押贷款、地址等...]。每个供应商都有自己的格式风格和命名约定,与我自己的不同。
集 1) 常量集:每天包含来自不同供应商的大约 25 个 CSV 文件。每个供应商的数据都有不同的名称(列标题),但是他们的数据格式与我的相似。
设置 2) 变量集:包含大约 20 个文件,尽管它们的格式和标题几乎总是唯一的(即我有一个名为“贷款利率”的数据集,我的供应商称之为“利率”、“LnRt”、“rT ”、“PxrT”等。)。因此我需要浏览每个文件,首先清理数据的格式(正确的大小写格式,将名称解析为不同的列,转换日期/时间格式等)然后重新标记所有内容。
我目前清理数据的方法是在 Excel 中使用“上传模板”。在我清理了所有数据的格式后,我将供应商文件中的值复制到我的模板中。然后我将模板中的数据加载到临时文件中。SQL 服务器上的表(暂存表)。随后运行一些 SQL 脚本,将值插入到数据库 (DB) 中的适当位置。
正如您可能想象的那样,整个过程非常繁琐耗时 - 继续手动执行此操作不再是真正的选择。
关于我的问题:
1)你做过这样的事情吗?如果是这样,你是怎么做的?
2)任何想法如何根据另一张表中的名称列表快速更改列名(标题)?
3) 您对如何改进流程有什么建议吗?
4)你知道任何可以自动化这个过程的软件吗?