python - Scrapy - 解析页面以提取项目 - 然后跟踪并存储项目 url 内容

Question

我有一个关于如何在scrapy中做这件事的问题。我有一个爬取列出项目页面的蜘蛛。每次找到包含项目的列表页面时，都会调用 parse_item() 回调来提取项目数据并生成项目。到目前为止一切顺利，一切正常。

但是每个项目，除其他数据外，还有一个 url，其中包含有关该项目的更多详细信息。我想跟踪该 url 并将获取的该项目 url 的内容存储在另一个项目字段 (url_contents) 中。

而且我不确定如何组织代码来实现这一点，因为两个链接（列表链接和一个特定的项目链接）的遵循方式不同，回调在不同的时间调用，但我必须在同一个项目处理中关联它们.

到目前为止，我的代码如下所示：

class MySpider(CrawlSpider):
    name = "example.com"
    allowed_domains = ["example.com"]
    start_urls = [
        "http://www.example.com/?q=example",
    ]

    rules = (
        Rule(SgmlLinkExtractor(allow=('example\.com', 'start='), deny=('sort='), restrict_xpaths = '//div[@class="pagination"]'), callback='parse_item'),
        Rule(SgmlLinkExtractor(allow=('item\/detail', )), follow = False),
    )


    def parse_item(self, response):
        main_selector = HtmlXPathSelector(response)
        xpath = '//h2[@class="title"]'

        sub_selectors = main_selector.select(xpath)

        for sel in sub_selectors:
            item = ExampleItem()
            l = ExampleLoader(item = item, selector = sel)
            l.add_xpath('title', 'a[@title]/@title')
            ......
            yield l.load_item()

score 21 · Accepted Answer

经过一些测试和思考，我发现这个解决方案对我有用。这个想法是只使用第一条规则，它为您提供项目列表，而且非常重要的是，将 follow=True 添加到该规则中。

在 parse_item() 中，您必须产生一个请求而不是一个项目，但在您加载项目之后。请求是项目详细信息 url。您必须将加载的项目发送到该请求回调。您根据响应完成您的工作，并且在那里您可以产生项目。

所以 parse_item() 的结尾看起来像这样：

itemloaded = l.load_item()

# fill url contents
url = sel.select(item_url_xpath).extract()[0]
request = Request(url, callback = lambda r: self.parse_url_contents(r))
request.meta['item'] = itemloaded

yield request

然后 parse_url_contents() 将如下所示：

def parse_url_contents(self, response):
    item = response.request.meta['item']
    item['url_contents'] = response.body
    yield item

如果有人有另一种（更好的）方法，请告诉我们。

斯特凡

score 2 · Accepted Answer

我正面临着完全相同的问题，鉴于 2 天没有人回答您的问题，我认为唯一的解决方案是在您的parse_item函数中手动跟踪该 URL。

我是 Scrapy 的新手，所以我不会尝试这样做（尽管我确信这是可能的），但我的解决方案是使用urllib和 BeatifulSoup 手动加载第二页，自己提取该信息并保存它作为项目的一部分。是的，比 Scrapy 进行正常解析要麻烦得多，但它应该以最少的麻烦完成工作。

python - Scrapy - 解析页面以提取项目 - 然后跟踪并存储项目 url 内容

2 回答 2

Related

Reference