所以我正在使用 SCRAPY 刮掉网站的书籍。
我有爬虫工作,它爬得很好,但是当谈到使用 XPATH 中的选择来清理 HTML 时,它有点不正常。现在因为它是一个图书网站,我每页有近 131 本书,他们的 XPATH 变成了这样
例如获取书籍的标题 -
1st Book --- > /html/body/div/div[3]/div/div/div[2]/div/ul/li/a/span
2nd Book ---> /html/body/div/div[3]/div/div/div[2]/div/ul/li[2]/a/span
3rd book ---> /html/body/div/div[3]/div/div/div[2]/div/ul/li[3]/a/span
DIV[] 数字随着书的增加而增加。我不知道如何让它进入一个循环,以便它捕获所有标题。我也必须为图像和作者姓名执行此操作,但我认为它会相似。只需要完成这个初始任务。
提前感谢您的帮助。