我在抓取我的网站时遇到问题...有一个带有两个下拉列表的表单...当我开始抓取时,爬虫仅从表单中获取部分链接...从第一个下拉列表中获取从第二个下拉列表中获取部分选项....我尝试更改 nutch-defaults.xml 文件中的一些配置,但一切都一样...
I change
fetcher.threads.per.queue 1 - 10
db.ignore.internal.links true - false
db.ignore.external.links false - true
http.content.limit 65536 - 65536000
file.content.limit 65536 - 65536000
db.update.max.inlinks 10.000 - 100.000
有没有其他选项可以帮助我抓取表单中的所有选项......??感谢您的回答。