Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在使用scrapy来抓取一个网站。
with open('test.html', 'wb') as f: f.write(response.body)
有了这个块,我正在将正文写入文件。当我打开文件时,我可以看到许多“a”标签。
当我用 print 打印同样的东西时。它只显示两个“a”标签
print response.body
你知道这里发生了什么吗?
我已经解决了这个问题。抓取的网站<html>在组合框中有第二个标签。
<html>
我正在使用 PyQuery,如果 html 结构中的标签有任何问题 PyQuery 不起作用。
现在我已将选择器更改为 xpath,现在它在 html 中找到所有标签。