我刚开始使用luigi
图书馆。我经常抓取网站并将任何新记录插入 Postgres 数据库。当我试图重写部分脚本以使用luigi
时,我不清楚应该如何使用“标记表”。
工作流程:
- 抓取数据
- 查询数据库以检查新数据是否与旧数据不同。
- 如果是这样,请将新数据存储在同一个表中。
但是,使用 luigi'spostgres.CopyToTable
时,如果表已经存在,则不会插入新数据。我想我应该使用表inserted
中的列table_updates
来确定应该插入哪些新数据,但我不清楚这个过程是什么样的,我在网上找不到任何明确的例子。