Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我可以在 windows xp 上通过 cygwin 成功运行爬虫命令。我也可以通过使用tomcat进行网络搜索。
但我也想在抓取事件期间保存解析的页面
所以当我开始像这样爬行时
bin/nutch 抓取网址 -dir 已抓取 -depth 3
我还想将解析的 html 文件保存到文本文件
我的意思是在我开始使用上述命令的这段时间
nutch 获取页面时,它还会自动将该页面解析(仅文本)保存到文本文件
这些文件名可以获取 url
我真的需要帮助
这将用于我的大学语言检测项目
泰
爬取的页面存储在段中。您可以通过转储段内容来访问它们:
nutch readseg -dump crawl/segments/20100104113507/ dump
您必须为每个细分市场执行此操作。