我有一个功能,可以从网站上抓取所有最新新闻(大约 10 条新闻,新闻的数量取决于该网站)。请注意,新闻是按时间顺序排列的。
例如,昨天我得到了 10 条新闻并存储在数据库中。今天我收到 10 条新闻,但有 3 条昨天没有的新闻(7 条保持不变,3 条是新的)。
我目前的方法是提取每个新闻,直到找到一个旧新闻(7 个新闻中的第一个)然后我停止提取,只更新"lastUpdateDate"
旧新闻的字段 + 将新新闻添加到数据库中。我认为这种方法有点复杂,需要时间。
实际上,我从 20 个具有相同内容结构 ( Moodle
) 的网站获得新闻,因此每个请求将持续大约 2 分钟,而我的免费主机不支持。
如果我删除所有新闻然后从头开始提取所有内容会更好吗(这实际上增加了数据库中的大量 ID 号)?