0

我想尽可能高效地将几个 RSS 提要提取到数据库中。

我的网站每 4 小时会抓取 50 个 RSS 提要 - 我只想将独特的帖子添加到数据库中。我有点坚持如何检查帖子的唯一性。我在想我可以比较 URL 值,当第一篇文章不是唯一的时,我可以跳出循环。

所以我的问题是 - 最好拉出所有帖子并根据数组检查每个提要帖子,直到出现一个重复项(然后中断)。或者最好从每个 RSS 提要中搜索数据库中的第一个帖子 - 然后只将其存储在一个数组中并检查新抓取的帖子。

我想当我在这里时,我不妨问问我是否应该为每个单独的提要创建一个表格。我一次只存储 5 个帖子,所以现在它只有一个表,我只有一个列来标识每个提要。

谢谢。

4

1 回答 1

0

让 DBMS 处理唯一性:插入所有潜在记录,where not exists以筛选出现有记录。

您所说的内容中没有任何内容向我表明您需要为每个提要提供一个表格。

如果不了解相关 DBMS,任何人都无法回答效率问题。但是,根据经验,您最好使用更大的工作块和更少的事务。一次存储 5 行可能比一次存储 5000 行慢很多。

于 2013-04-21T05:00:09.267 回答