0

我想以编程方式执行此操作:

给定一个页面 URL,我需要获取页面上的所有链接。重要的是至少要获取3条链接信息:锚文本、href属性值、链接在页面上的绝对位置。

Java CSSBox 库是一个选项,但还没有完全实现(href不能同时获取属性值,必须通过额外的库如Jsoup 进行一些额外的映射)。更重要的是,CSSBox 库渲染页面非常慢。

似乎 Javascript 具有所有可用的功能,但我们必须将 javascript 代码注入页面并编写驱动程序以利用现有浏览器。Python 和 Ruby 等脚本语言也对此提供支持。我很难找到最方便的工具。

4

1 回答 1

0

PHP 的 DOM 操作库对您有帮助吗?http://www.php.net/manual/en/book.dom.php

于 2012-10-18T03:25:31.170 回答