我对如何构建一个更智能的网络蜘蛛有一些想法,它与网页交互并以更类似于我们人类的方式提取信息。
为此,我需要一个与我们在浏览器中看到的相似或相同的网页表示
换句话说,我需要访问有关页面上所有元素的位置、颜色和样式的数据,可能是像素级别的。
但我不想要一个渲染的位图,我希望能够提取文本、单击链接和按钮等等
我觉得 DOM 模型可能是一个起点,但更具体的建议将不胜感激
为了澄清,我想以类似于浏览器呈现给我们的形式以编程方式获得对网页的访问,但例如检查特定像素位置或区域的颜色或文本。
我对如何构建一个更智能的网络蜘蛛有一些想法,它与网页交互并以更类似于我们人类的方式提取信息。
为此,我需要一个与我们在浏览器中看到的相似或相同的网页表示
换句话说,我需要访问有关页面上所有元素的位置、颜色和样式的数据,可能是像素级别的。
但我不想要一个渲染的位图,我希望能够提取文本、单击链接和按钮等等
我觉得 DOM 模型可能是一个起点,但更具体的建议将不胜感激
为了澄清,我想以类似于浏览器呈现给我们的形式以编程方式获得对网页的访问,但例如检查特定像素位置或区域的颜色或文本。
您可能想查看Selenium(或其他编写浏览器脚本的方法,例如greasemonkey)。由于网页的显示方式在很大程度上取决于特定的浏览器,因此编写脚本显然是获取用户所见内容的最精确方式。