我们可以使用 Google 为我们发出警报。我已经发出了大约 10 个警报,并且因为我收到了“垃圾邮件”消息,所以我使用了“每日摘要”选项;我现在每天早上都会收到一条包含所有警报的消息。请注意,单独的警报可以选择将警报转换为 RSS 提要,但不能选择组合的。
但是,我真的不喜欢这封电子邮件的结构,我更愿意以某种方式将其视为可以使用一些 RSS 阅读器阅读的 RSS。
我尝试使用 Python 来收集电子邮件,并使用 lxml 和 bs4 来解析它,但是解析起来非常混乱和不一致。
有谁知道用它(标题、正文、链接)创建一个漂亮的 rss 提要的方法?
我能够从电子邮件中提取 html,对于那些感兴趣的人来说,这里是一个简单的使用 html 的方法。
sp = BeautifulSoup('path/to/html')
for span in sp.findAll('span'):
link = span.find('a')
if link is not None and hasattr(link, 'href'):
print(link.text)
即使我有 17 个帖子,它也会给我 22 个链接文本。
问题是即使是链接和文本也不是一致的。
这与我得到的一样接近lxml.html
:
tr = lxml.html.fromstring('path/to/html')
links = tr.xpath('//table/tr/td/div/span/a')
len(links) == 16 # not 17
True