我正在帮助一个非营利组织将他们现有的数据组织到一个数据库中。数据包括大约 200 条记录。他们一直在使用一个简单的word文档。我正在开始构建原始数据的工作,以便可以将其输入数据库。我将数据复制到 Textpad 中,效果很好。也就是说,数据是结构化的,但不是完美匹配。例如,一些组织有一个网站,一些没有等。以下是一些指示剩余数据的信息示例:
我创建了一个 ERD,它经过了多次修改,并得到了我的导师的批准。此时我处于 ETL(Extract, transform, load) 过程
- 清理剩余的部分结构化但混乱的数据。
- 放入Excel可读的doc类型,并排列到适用的表格中
- 创建数据输入 SQL 脚本。
- 运行脚本。
我已经用其他一些数据做到了这一点,而且效果很好。
清理并将其放入 Excel(CSV 或制表符分隔)是我需要指导的地方。还是将其转换为 XML 更好?如果我手动浏览文本文件以确保所有标题(因为缺少更好的词)匹配如下:
有没有办法转移呢?
我对此进行了研究,我很惊讶我找不到任何好的信息。[更新]我刚刚找到了实际的术语,ETL Process。如果我必须开始重新输入和/或剪切和粘贴,请告诉我。