0

我正在尝试抓取一些 HTML 结构维护不善的网站,我无法控制它来更改它。当我查看由 Solr 索引的 nutch 爬取数据时,“标题”字段看起来不错,因为“内容”字段包含大量垃圾,因为它使用下拉菜单从 html 横幅中抓取所有文本并向下处理左侧菜单、导航、页脚等。

就我而言,我有兴趣将 HTML 页面上的段落中定义的“描述:”信息抓取到“内容”字段中。

示例:(原始 html):

 <p><strong>Description:</strong> Apache Nutch is an open source Web crawler written in Java. By using it, we can find Web page hyperlinks in an automated manner, reduce lots of maintenance work, for example checking broken links, and create a copy of all the visited pages for searching over. 

如何将垃圾从“内容”字段中过滤出来,并且只有我感兴趣的信息?

4

1 回答 1

1

您可以使用下面的插件根据 XPath 查询提取内容。如果您的内容在特定的 div 中,您可以使用此插件从该特定部分中提取您想要的内容。

过滤 xpath

于 2013-05-14T20:44:59.077 回答