0

我创建了使用分类器将 csv 文件导入数据表的 aws 爬虫。哪个工作正常。

问题:每次爬虫覆盖旧数据。我想保留以前的数据并附加 csv 文件的新内容。

即我已经上传了 250 条记录的 csv 文件。当我执行该爬虫时,它填充了 250 行的表。

现在,如果我用其他内容替换该 csv 文件,那么它将覆盖旧的 250 行并仅用最新数据填充表。

谁能帮助我如何保留旧记录并附加新数据。

谢谢,

4

1 回答 1

1

胶水爬虫不会用行/记录填充表。它只是定义有关您的数据的元信息,即推断表模式和这些文件在 S3(或其他资源)上的位置等。这意味着如果您想保留旧记录,则需要将这两个文件都保留在 S3 上。

请注意,如果您将新文件保存在 S3 上与旧文件相同的“文件夹”中,则无需重新运行爬虫,因为查询这些文件(例如使用 Athena)所需的信息已经定义。

于 2019-11-04T18:24:59.450 回答