0

基本上,我希望我的网站在 cron 作业期间聚合大量 rss 提要并将它们存储在数据库中。我使用 magpie 将 rss 解析为数组……虽然我担心在运行 cron 作业时出现重复问题,但一切都应该是直截了当的。

避免重复条目的最佳解决方案是什么……这是我的理论,尽管我认为它没有效率。

cron工作理论

1) 使用 magpie 解析 rss 提要 2) 创建链接的 md5 哈希 3) 测试数据库表中 md5 的存在...如果不存在...插入 .. 如果存在忽略或更新

让我知道是否有更有效的方法

4

2 回答 2

1

既然您担心重复问题,那么它最终怎么会重复呢?如果在几个不同的网站上找到它,我想最好找到文章第一句的 MD5 或其他东西。

于 2010-08-15T01:03:32.410 回答
1

链接可能不够,因为文章在多个站点上重复。我曾经制作了一个系统来收集许多报纸上的文章,其中同一篇文章可以出现在多个来源中。此外,一个站点可能会在多个 URL 上发布同一篇文章,例如,当一篇文章出现在多个类别中时。

如果您真的想确定一篇文章不是重复的,请比较内容或基于它的散列代码。

于 2010-08-15T10:40:40.810 回答