24

我有一个关于如何在scrapy中做这件事的问题。我有一个爬取列出项目页面的蜘蛛。每次找到包含项目的列表页面时,都会调用 parse_item() 回调来提取项目数据并生成项目。到目前为止一切顺利,一切正常。

但是每个项目,除其他数据外,还有一个 url,其中包含有关该项目的更多详细信息。我想跟踪该 url 并将获取的该项目 url 的内容存储在另一个项目字段 (url_contents) 中。

而且我不确定如何组织代码来实现这一点,因为两个链接(列表链接和一个特定的项目链接)的遵循方式不同,回调在不同的时间调用,但我必须在同一个项目处理中关联它们.

到目前为止,我的代码如下所示:

class MySpider(CrawlSpider):
    name = "example.com"
    allowed_domains = ["example.com"]
    start_urls = [
        "http://www.example.com/?q=example",
    ]

    rules = (
        Rule(SgmlLinkExtractor(allow=('example\.com', 'start='), deny=('sort='), restrict_xpaths = '//div[@class="pagination"]'), callback='parse_item'),
        Rule(SgmlLinkExtractor(allow=('item\/detail', )), follow = False),
    )


    def parse_item(self, response):
        main_selector = HtmlXPathSelector(response)
        xpath = '//h2[@class="title"]'

        sub_selectors = main_selector.select(xpath)

        for sel in sub_selectors:
            item = ExampleItem()
            l = ExampleLoader(item = item, selector = sel)
            l.add_xpath('title', 'a[@title]/@title')
            ......
            yield l.load_item()
4

2 回答 2

21

经过一些测试和思考,我发现这个解决方案对我有用。这个想法是只使用第一条规则,它为您提供项目列表,而且非常重要的是,将 follow=True 添加到该规则中。

在 parse_item() 中,您必须产生一个请求而不是一个项目,但在您加载项目之后。请求是项目详细信息 url。您必须将加载的项目发送到该请求回调。您根据响应完成您的工作,并且在那里您可以产生项目。

所以 parse_item() 的结尾看起来像这样:

itemloaded = l.load_item()

# fill url contents
url = sel.select(item_url_xpath).extract()[0]
request = Request(url, callback = lambda r: self.parse_url_contents(r))
request.meta['item'] = itemloaded

yield request

然后 parse_url_contents() 将如下所示:

def parse_url_contents(self, response):
    item = response.request.meta['item']
    item['url_contents'] = response.body
    yield item

如果有人有另一种(更好的)方法,请告诉我们。

斯特凡

于 2011-05-01T20:28:50.283 回答
2

我正面临着完全相同的问题,鉴于 2 天没有人回答您的问题,我认为唯一的解决方案是在您的parse_item函数中手动跟踪该 URL。

我是 Scrapy 的新手,所以我不会尝试这样做(尽管我确信这是可能的),但我的解决方案是使用urllib和 BeatifulSoup 手动加载第二页,自己提取该信息并保存它作为项目的一部分。是的,比 Scrapy 进行正常解析要麻烦得多,但它应该以最少的麻烦完成工作。

于 2011-05-01T18:35:18.117 回答