我可以在 windows xp 上通过 cygwin 成功运行爬虫命令。我也可以通过使用tomcat进行网络搜索。
但我也想在抓取事件期间保存解析的页面
所以当我开始像这样爬行时
bin/nutch 抓取网址 -dir 已抓取 -depth 3
我还想将解析的 html 文件保存到文本文件
我的意思是在我开始使用上述命令的这段时间
nutch 获取页面时,它还会自动将该页面解析(仅文本)保存到文本文件
这些文件名可以获取 url
我真的需要帮助
这将用于我的大学语言检测项目
泰