0

我的工作要求我在一个很长的电子表格上查找信息,该电子表格每周更新一次或两次发送给我。有时最新的电子表格会遗漏上一个电子表格中的信息,导致我必须查看几个不同的电子表格才能找到我需要的信息。我最近发现我可以将电子表格转换为 CSV 文件,然后将其上传到数据库表中。只需几行脚本,我所要做的就是输入我要查找的内容,瞧!现在我刚刚得到了最新的电子表格,我想知道是否可以将其导入旧电子表格。我在数据库中设置为主要的每一行都有一个唯一的编号。如果我尝试在当前信息之上导入它,它会跳过主要复制的行还是只会弄乱我的数据库?

在我尝试之前我想我会问专家。感谢您的输入!

详细信息:电子表格由我们的客户组成。每行包含客户的姓名、唯一的身份证号码、他们的地址和联系信息。我可以将包含唯一 ID 的行设置为主行,然后上传。我担心的是,在 csv 文件中没有任何内容可以表示新行(我认为)。当我上传它时,它给了我跳过重复项的选项,但它会跳过整行还是跳过那个单元格,导致我的数据被放置在错误的行中。它是 apache 服务器 IDK 什么版本的 mysql。我为此使用 000webhost。

4

2 回答 2

2

希格斯,

数据库/ETL 术语中的这个问题称为重复数据删除策略。对此没有模板答案,但我建议阅读这些有用的读物​​:

学术论文 -关系数据中多种记录类型的联合重复数据删除

重复数据删除文章

一些开源工具:

杜克工具

数据清理器

于 2012-08-02T02:08:50.350 回答
0

当您单击底部附近的导入时,有一个小复选框,上面写着“忽略重复”或类似的东西。比我想象的要简单。

于 2012-08-11T06:30:37.997 回答