5

我在抓取我的网站时遇到问题...有一个带有两个下拉列表的表单...当我开始抓取时,爬虫仅从表单中获取部分链接...从第一个下拉列表中获取从第二个下拉列表中获取部分选项....我尝试更改 nutch-defaults.xml 文件中的一些配置,但一切都一样...

I change 
fetcher.threads.per.queue  1 - 10         
db.ignore.internal.links true - false  
db.ignore.external.links false - true  
http.content.limit    65536 - 65536000  
file.content.limit    65536 - 65536000  
db.update.max.inlinks  10.000 - 100.000

有没有其他选项可以帮助我抓取表单中的所有选项......??感谢您的回答。

4

2 回答 2

1

对不起,太低代表发表评论!

有没有链接。

还有下拉ajax或花哨的东西。记忆中的 Nutch 只会抓取页面上的内容。即,如果您在页面加载时加载前 10 个,并且在用户滚动时仅使用服务加载其余部分,我相信它找不到。

更多信息会很好重新页面....

干杯罗宾

于 2012-10-13T02:38:25.380 回答
0

感谢您的回答。这是 [链接] (auto.am/en),经过爬网后,我只有大约 100 个品牌,而且并非所有的汽车模型都是我拥有的。...我希望在您获得链接后,您会建议抓取所有汽车品牌和型号的解决方案:)。谢谢。

于 2012-10-16T07:44:02.097 回答