我正在开发一个免费的网络应用程序,它将全天分析头条新闻并提供统计数据。大多数新闻网站都提供 RSS 提要,可以很好地了解要检索哪些故事。然而,当试图从新闻网站本身获取完整的新闻报道时,就会出现问题。目前,我为每个来源(CNN、纽约时报等)都有单独的NewsSource类,它们读取适当的 RSS 提要、跟踪每个链接并去除正文。当新闻网站决定更改其文章的 HTML 结构时,这似乎很乏味且非常难以管理。
是否有一项服务(最好是免费的)已经将多个新闻来源与完整的文章内容(不仅仅是摘要)聚合在一起?如果没有,您对处理具有不同 HTML 结构的多个来源有什么建议,这些来源可能会在没有通知的情况下发生变化?