0

我使用 arachnode.net 爬虫来爬取网站。生成的爬网数据生成了一个大小为 +100 GB 的数据库!!!

我查看了 arachnode.net 数据库,发现表“网页”是罪魁祸首。当我抓取一个我不下载的网站、图像、媒体或任何类似的东西时,我只下载 html 代码。但是在这种情况下,我可以看到 html 网页包含大量隐藏的 viewdata 和 javascript。

所以我需要再次进行爬网,这次在保存到网页表之前去掉隐藏的视图数据和 javascript 代码。

任何人都对如何实现它有一些想法。

谢谢。

4

1 回答 1

1

是的,您可以编写一个插件,在将数据插入数据库之前修改 CrawlRequest.Data 和 CrawlRequest.DecodedHtml。

创建一个 PostRequest CrawlAction,如下所示:http: //arachnode.net/Content/CreatingPlugins.aspx

于 2013-02-10T16:48:37.657 回答