1

我正在做一个个人的、只是为了好玩的项目,它使用屏幕抓取来给我一个系统托盘通知,以防 HTML 表上的另一行被添加、修改或删除。

在我想到之前已经这样做了:好吧,让我们使用正则表达式,仅此而已,但是作为一个好奇的人,让我认为可能还有其他东西可以有另一种范式,但使用起来很简单。

我了解 DOM 和 X-Path 以及所有 xml'ish 方法。我正在寻找一些开箱即用的东西,甚至可以在一组规则中定义的东西,这样你就可以制作一个插件系统来聚合各种网站。

4

3 回答 3

3

请参阅HTML 抓取选项

于 2008-09-17T07:42:54.893 回答
0

这是一个想法:假设您的主要用例是在 HTML 文件更改时收到通知,为什么不使用标准差异工具,然后循环通过更改的行,应用您的规则?

此外,如果在这种情况下您可以访问服务器和您正在观看的文件,您也许可以使用 CVS(或类似工具)将所有内容置于源代码控制之下,然后只关注提交。如果您想对网络上的随机站点使用这种方法,只需编写一个脚本,该脚本会定期下载适当 URL 的 html,然后将其提交到源代码控制并观察差异。

不是很实用,但在盒子外面。

于 2008-09-17T07:44:51.330 回答
-1

如果您可以使用SgmlReaderHtmlTidy 之类的东西将源代码转换为有效的 XHTML/XML,那么您可以使用 XSLT。只需为您希望抓取的每个站点创建一个 XSL 模板。

于 2008-09-17T07:43:04.267 回答