web-scraping - python-scrapy：如何在蜘蛛内部获取 URL（不是通过以下链接）？

Question

我怎样才能在我的蜘蛛内部获取一些 URL 以通过 HtmlXPathSelector 从页面中提取某些内容？但是 URL 是我想在代码中作为字符串提供的东西，而不是要遵循的链接。

我试过这样的事情：

req = urllib2.Request('http://www.example.com/' + some_string + '/')
req.add_header('User-Agent', 'Mozilla/5.0')
response = urllib2.urlopen(req)
hxs = HtmlXPathSelector(response)

但此时它会引发异常：

[Failure instance: Traceback: <type 'exceptions.AttributeError'>: addinfourl instance has no attribute 'encoding'

score 1 · Accepted Answer

您将需要使用 body=urllib2.urlopen(req).read() 构造一个 scrapy.http.HtmlResponse 对象 - 但是为什么您需要使用 urllib2 而不是通过回调返回请求？

score -1 · Accepted Answer

scrapy 没有明确展示如何进行单元测试，如果你想为每个蜘蛛进行单元测试，我不建议使用 scrapy 来抓取数据。

web-scraping - python-scrapy：如何在蜘蛛内部获取 URL（不是通过以下链接）？

2 回答 2

Related

Reference