html - 我需要用 scrapy 和 python 抓取网页，但我无法解析地址以找到我想要提取的内容

Question

我正在尝试使用 Jupyter 中的 Python 从工作提案页面获取数据，该页面是这样的： computrabajo 我已经设法使用指南获得了头衔、公司和资格，但是当我想获得提案的描述时，出现以下内容：终端我认为原因是因为我没有正确放置路由或以下代码中调用的任何内容（DESCRIPTION_SELECTOR AND extract_first()）：

def parse(self, response):
    SET_SELECTOR = '.box_border'
    for brickset in response.css(SET_SELECTOR):
        NAME_SELECTOR = 'h1 ::text'
        EMPRESA_SELECTOR = './/p[text()]/a/text()'
        CALIFICACIÓN_SELECTOR = './/p[text()]/span/text()'
        DESCRIPTION_SELECTOR = './/p[text()]/text()'
        yield {
            'name': brickset.css(NAME_SELECTOR).extract_first(),
            'empresa': brickset.xpath(EMPRESA_SELECTOR).extract_first(),
            'calificacion': brickset.xpath(CALIFICACIÓN_SELECTOR).extract_first(),
            'descripcion': brickset.xpath(DESCRIPTION_SELECTOR).extract_first()
        }

描述这就是我想要得到的，如果我使用提取它会提取所有内容，但至少我知道可以提取

如果不是太麻烦，如果有人知道如何将我在 csv 中获得的那些记录保存为美丽的汤，那将对我有很大帮助。

score 0 · Accepted Answer

您<p>的SET_SELECTOR.

尝试使用更具体的xpath选择器，例如：

.//p[@class='fc_aux t_word_wrap mb10 hide_m']/text()

html - 我需要用 scrapy 和 python 抓取网页，但我无法解析地址以找到我想要提取的内容

1 回答 1

Related

Reference