2

我是 Nutch 的新手,所以请多多包涵。

我的目标是简单地从网页中提取一些内容并能够检索结果信息。例如,假设我在电子商务网站上抓取了一些页面并打算存储产品信息(即名称、类别、价格等)。

重申一下,假设我的 seed.txt 文件包含 www.site.com 并且我初始化了一个爬虫。假设我的 HtmlParseFilters 设置为正确解析来自 www.site.com 的产品信息,并且此爬网将解析 www.site.com 和 www.site.com/link。如果 www.site.com 包含 ID 为 1 的产品 A,而 www.site.com/link 包含 ID 为 2 的产品 B,我希望我能够使用某种预定义的实用程序单独为我提供这些结果:

A 1

B 2

目前,我发现自己正在修改 org.apache.nutch.segment.SegmentReader 和 org.apache.nutch.parse.ParseResult AND org.apache.nutch.metadata.MetaData 的 toString() 方法来隔离我提取的结果,这让我觉得我错过了一些东西……我不想看到外链、recno、URL、解析元数据、播放或任何其他抓取元数据;如上所述,我只想要我的 HTML 过滤结果。

简而言之,我真的很想了解如何使用 nutch 来抓取一组网站,并只给我提取的内容。

如果您需要任何澄清,请随时告诉我。

4

0 回答 0