0

我正在使用scrapy来抓取一个网站。

with open('test.html', 'wb') as f:
        f.write(response.body)

有了这个块,我正在将正文写入文件。当我打开文件时,我可以看到许多“a”标签。

当我用 print 打印同样的东西时。它只显示两个“a”标签

print response.body

你知道这里发生了什么吗?

4

1 回答 1

0

我已经解决了这个问题。抓取的网站<html>在组合框中有第二个标签。

我正在使用 PyQuery,如果 html 结构中的标签有任何问题 PyQuery 不起作用。

现在我已将选择器更改为 xpath,现在它在 html 中找到所有标签。

于 2015-12-04T13:31:34.160 回答