我想以编程方式执行此操作:
给定一个页面 URL,我需要获取页面上的所有链接。重要的是至少要获取3条链接信息:锚文本、href
属性值、链接在页面上的绝对位置。
Java CSSBox 库是一个选项,但还没有完全实现(href
不能同时获取属性值,必须通过额外的库如Jsoup 进行一些额外的映射)。更重要的是,CSSBox 库渲染页面非常慢。
似乎 Javascript 具有所有可用的功能,但我们必须将 javascript 代码注入页面并编写驱动程序以利用现有浏览器。Python 和 Ruby 等脚本语言也对此提供支持。我很难找到最方便的工具。