我正在使用 Python 中的 feedparser 库从 RSS 提要中获取各种详细信息。假设我从新闻频道的 RSS 提要中提取了 25 个标题。一个小时后,我再次运行 feedparser 命令以获取 25 个新标题的最新标题列表。该列表可能会在我第二次运行 feedparser 命令时更新,也可能不会更新。
有些标题可能是相同的,有些可能是新的。我需要能够检查任何新闻标题中是否有更新,其中标题是在一小时前删除的标题。只有新的标题必须被推入数据库。这是为了避免重复被转储到数据库中。
代码如下所示:
import feedparser
d = feedparser.parse('www.news.example.xml')
for item in d.entries:
hndlr.write(item.title) #data being dumped into a database
我需要能够每小时运行上述代码并检查标题(标题)中是否有任何更新。如果一小时前提取的数据有任何变化,则只应将新数据转储到数据库中。