python - Scrapy - 在 shell 和 spider 中处理 ajax 延续响应数据

Question

我正在尝试抓取在 ajax 请求后加载的数据。

例如，这个 youtube 页面的前 30 个视频以 html 格式显示，然后用户必须单击“加载更多”按钮，该按钮会触发 ajax 并获得更多结果。 https://www.youtube.com/user/testedcom/videos

我可以获得 ajax 链接，但是使用 Scrapy 功能提取剩余数据/“分页”的最佳方法是什么？

启动外壳：

scrapy shell https://www.youtube.com/user/testedcom/videos

获取 ajax 继续的 url：

continuation_url = response.xpath('//*[@class="yt-uix-button yt-uix-button-size-default yt-uix-button-default load-more-button yt-uix-load-more browse-items-load-more-button"]/@data-uix-load-more-href').extract()[0]
url = "https://www.youtube.com/user/testedcom/videos" + continuation_url

从 ajax 调用中获取新数据：

fetch(url)

...但是从这里我不确定如何处理数据。它与运行 scrapy shell 的原始响应格式不同。它似乎并不像 JSON 那样加载。我认为scrapy对此有专门的东西，但在文档中找不到。

编辑我可以通过执行以下操作获取 html 内容：

import json
response_json = json.loads(response.body_as_unicode())
html = response_json['content_html']

但随后我将不得不使用正则表达式从这个 unicode 中提取所需的数据，而不是使用更方便的内置 xpath 选择器。

不希望在此解决方案中使用 Selenium 或其他附加组件。速度和简单性是重中之重。

score 2 · Accepted Answer

这是 Scrapy Selector 的文档：http: //doc.scrapy.org/en/1.1/topics/selectors.html

我遇到了同样的问题。我通过 Selector 处理它。您可以通过响应或字符串构造选择器，然后可以使用“xpath”。

此外，您可以使用try...except...来识别响应的类型（html 或 json）

def parse(self, response):
    try:
        jsonresponse = json.loads(response.body_as_unicode())
        html = jsonresponse['content_html'].strip()
        sel = Selector(text=html)
    except:
        sel = Selector(response=response)

    entries = sel.xpath(
        '//li[contains(@class,"feed-item-container")]')
    for entry in entries:
        try:
            title = entry.xpath('.//h3/a/text()').extract()[0]
            item = YoutubeItem()
            item['title'] = title
            yield item
        except Exception as err:
            continue

    try:
        jsonresponse = json.loads(response.body_as_unicode())
        sel = Selector(text=jsonresponse['load_more_widget_html'])
    except:
        sel = Selector(response=response)
    try:
        url = "https://www.youtube.com" + \
            sel.xpath(
                '//button[contains(@class,"load-more-button")]/@data-uix-load-more-href').extract()[0]
        req = scrapy.Request(url, callback=self.parse)
        yield req
    except:
        self.log('Scawl completed.')

score 0 · Accepted Answer

获取 html 内容后，您可以初始化一个 Selector 对象以使用 xpath 选择器：

from scrapy.selector import Selector
import json

response_json = json.loads(response.body_as_unicode())
html = response_json['content_html']
sel = Selector(text=html)
for url in sel.xpath('//@href').extract():
    yield Request(url, callback=self.somecallbackfunction)

python - Scrapy - 在 shell 和 spider 中处理 ajax 延续响应数据

2 回答 2

Related

Reference