parsing - 如何在抓取时解析（仅文本）网站

Question

我可以在 windows xp 上通过 cygwin 成功运行爬虫命令。我也可以通过使用tomcat进行网络搜索。

但我也想在抓取事件期间保存解析的页面

所以当我开始像这样爬行时

bin/nutch 抓取网址 -dir 已抓取 -depth 3

我还想将解析的 html 文件保存到文本文件

我的意思是在我开始使用上述命令的这段时间

nutch 获取页面时，它还会自动将该页面解析（仅文本）保存到文本文件

这些文件名可以获取 url

我真的需要帮助

这将用于我的大学语言检测项目

泰

score 1 · Accepted Answer

爬取的页面存储在段中。您可以通过转储段内容来访问它们：

nutch readseg -dump crawl/segments/20100104113507/ dump

您必须为每个细分市场执行此操作。

1 回答 1