我正在使用与 mysql 集成的 Nutch 2.1。我已经爬取了 2 个站点,Nutch 成功爬取了它们并将数据存储到了 Mysql 中。我正在使用 Solr 4.0.0 进行搜索。
现在我的问题是,当我尝试重新抓取某些站点(如 trailer.apple.com 或任何其他站点)时,它总是抓取最后抓取的网址。甚至我已经从 seed.txt 文件中删除了最后抓取的 url 并输入了新的 Urls。但是 Nutch 并没有抓取新的 Urls。
谁能告诉我,实际上我做错了什么。
另外请向我推荐任何可以帮助抓取视频和电影网站的 Nutch 插件。
任何帮助都会非常显着。