我希望从许多不同的地方政府网站上抓取公共数据。此数据未以任何标准格式(XML、RSS 等)提供,必须从 HTML 中提取。我需要抓取这些数据并将其存储在数据库中以供将来参考。理想情况下,抓取例程将循环运行,并且仅将新记录存储在数据库中。我应该有一种方法可以在每个网站上轻松地从旧记录中检测到新记录。
我的大问题是:实现这一目标的最佳方法是什么?我听说有人使用 YQL。我也知道一些编程语言也使解析 HTML 数据更容易。我是一名了解几种不同语言的开发人员,并希望确保我选择正确的语言和方法来开发它,以便于维护。随着网站在未来发生变化,抓取例程/代码/逻辑将需要更新,因此这很重要,这将相当容易。
有什么建议么?