html - 处理html文档结构

Question

我只是想知道是否有任何资源讨论处理 html 文档结构。例如，如果我有一个来自《纽约时报》的页面，对于任何页面，我想了解主要文章在哪里，页面中的重要元素在哪里。对于某些网站，原始 html 文档为此类处理提供了一些指示。对于其他网站，通常它提供的只是格式化标签（字体等）。我看过 OCR 技术，但其中大部分用于识别单个元素，这与 OCR 完全不同。

如果有人对此主题有任何见解，将不胜感激！

score 1 · Accepted Answer

您正在寻找的内容称为“屏幕抓取”或“数据抓取”——谷歌搜索会为您提供一堆结果。这是来自维基百科的链接：Web Scraping

你可以在像hpricot这样的 HTML 解析器上构建一些东西

html - 处理html文档结构

1 回答 1

Related

Reference