2

我正在通过使用我的爬虫挖掘网页内容来进行一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关链接),这会分散用户对实际内容的注意力。

考虑到没有标准来定义新闻故事/博客文章/论坛评论/文章在网页中的实际位置,据我了解,提取有意义的内容是一个难题。

我可以找到一些像这样的开源解决方案:https ://metacpan.org/pod/HTML::ContentExtractor

但我很好奇是否有人处理过这个问题并获得了合理的成功率。这似乎是一个相当普遍的问题,我相信很多专家都在那里。我更喜欢基于 JAVA 的解决方案,但这不是硬性规定。请提供一些意见。我将深深感激。

4

2 回答 2

1

理想情况下,您会寻找 RSS 提要来获取原始内容。

这不是 HTML 中整体结构和含义的标准。作者在他们的页面中定义了不同的元素。搜索引擎在这一领域投入了大量资金,他们有自己的秘诀来索引内容并从中获得某种意义和结构以进行搜索排名。

在我们拥有早已预言的“语义网”之前,我们只能对任意 HTML 页面的结构和含义做出有根据的猜测。

但是,理论上:

寻找标题标签。这些应该为您提供从哪里开始阅读的线索,并希望为内容的重要性顺序提供一个大纲。

寻找常见的元素 id 和类。一个结构良好的网站可能有类似<div id="content">and之类的东西<div class="article">,这与如今的语义一样。还要了解常见 CMS 平台使用的标准元素名称,如 WordPress(“post”)或 Drupal(“node”)。通常这些将用于标记内容。

最后但同样重要的是,寻找微格式

于 2009-02-19T01:57:06.613 回答
0

现在有许多项目以这项任务为主要目标。

NPM 包WCE (Javascript) 很有趣,因为它在底层使用了许多其他内容提取模块。

对不起,我本来想早点回答这个问题,但我很忙。

于 2016-02-14T16:00:40.340 回答