Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
请任何人告诉我如何识别要重新抓取的 url 中的更新?当页面要重新抓取时,我只想抓取页面的更新内容,而不是已经抓取的旧内容。提前致谢。普拉亚..
我认为您的意思是,只有在服务器端修改了内容时,您才想重新抓取 url。您希望 nutch 识别它,从而明智地决定是否获取内容。
Nutch 有这样的概念,即维护页面的“最后修改”时间,并且在重新抓取页面时将其存储并且不投入使用。他们知道这会节省磁盘空间和带宽,但由于其他小东西,它没有引起人们的兴趣。人们提出了这个问题,但我仍然没有看到 nutch 开发团队的任何活动。已努力改进,我仍然不确定当前版本使用“最后修改”字段的精确程度。
您不能告诉 nutch 只获取页面的更新内容而忘记其余未更改的数据。每次都会得到完整的内容。您可以巧妙地设置重新抓取频率,以便页面在更新后重新抓取。