我在网络上有一个 html 文件,它几乎每分钟都会更新表格中的新行。在任何时候,该文件都包含近 15000 行我想创建一个 MySQL 表,其中包含表中的所有数据,然后我从可用数据中计算出更多数据。
所述 HTML 表包含过去 3 天的行。我想将它们全部存储在我的 mysql 表中,并每隔一小时左右更新一次表(这可以通过 cron 完成吗?)
为了连接到数据库,我正在使用MySQLdb
which 工作正常。但是,我不确定这样做的最佳做法是什么。我可以使用 抓取数据bs4
,使用 连接到表MySQLdb
。但是我应该如何更新表格?我应该使用什么逻辑来抓取使用最少资源的页面?
我没有获取任何结果,只是抓取和写作。
请问有什么指点吗?