0

我只是想知道是否有任何资源讨论处理 html 文档结构。例如,如果我有一个来自《纽约时报》的页面,对于任何页面,我想了解主要文章在哪里,页面中的重要元素在哪里。对于某些网站,原始 html 文档为此类处理提供了一些指示。对于其他网站,通常它提供的只是格式化标签(字体等)。我看过 OCR 技术,但其中大部分用于识别单个元素,这与 OCR 完全不同。

如果有人对此主题有任何见解,将不胜感激!

4

1 回答 1

1

您正在寻找的内容称为“屏幕抓取”或“数据抓取”——谷歌搜索会为您提供一堆结果。这是来自维基百科的链接:Web Scraping

你可以在像hpricot这样的 HTML 解析器上构建一些东西

于 2009-07-06T17:55:36.717 回答