-1

我可以在 windows xp 上通过 cygwin 成功运行爬虫命令。我也可以通过使用tomcat进行网络搜索。

但我也想在抓取事件期间保存解析的页面

所以当我开始像这样爬行时

bin/nutch 抓取网址 -dir 已抓取 -depth 3

我还想将解析的 html 文件保存到文本文件

我的意思是在我开始使用上述命令的这段时间

nutch 获取页面时,它还会自动将该页面解析(仅文本)保存到文本文件

这些文件名可以获取 url

我真的需要帮助

这将用于我的大学语言检测项目

4

1 回答 1

1

爬取的页面存储在段中。您可以通过转储段内容来访问它们:

nutch readseg -dump crawl/segments/20100104113507/ dump

您必须为每个细分市场执行此操作。

于 2010-04-15T13:22:25.453 回答