0

我需要使用来自 RSS 提要的数据填充数据库。有没有办法确保我不会用重复的信息填充数据库?

我不想比较数据库中的数据来确定我是否有重复的信息,因为这会很慢。

类似于这个问题如何检测 RSS 提要中的更改和新项目?但答案不是我要找的。

4

2 回答 2

2

您通常希望使用项目的 GUID 元素来执行重复检查。

如果您已经知道某个项目的 guid,那么您已经看过它。

于 2013-07-31T09:44:18.947 回答
0

我相信你的问题的标题和你对它的描述不匹配:)

如果您想在 RSS 提要更新时收到通知,则必须使用为此设计的PubSubHubbub协议。仅当发布者在其供稿中支持它时,它才会起作用。您还可以检查Superfeedr以获取所有其他提要。(我创建了 Superfeedr!)。

现在,如果您想知道如何确保不会两次保存相同的数据,推荐的方法是在数据存储中映射<GUID>RSS 元素或<id>Atom 元素。它将涉及将提要中的所有这些项目与您之前存储的项目进行比较。对于大多数提要来说,成本不应该太高,因为它们通常不包含数百个条目。

于 2013-08-01T06:37:29.233 回答