0

我想从速卖通获取任意报价。我正在尝试使用scrapy和硒。我面临的问题是,当我使用 chrome 并在元素上执行右键单击 > 检查时,我会看到真正的 HTML,但是当我执行右键单击 > 查看源代码时,我会看到一些不同的东西——HTML CSS 和 JS 乱七八糟。

据我了解,内容是异步提取的?我想这就是我在页面上找不到我要查找的元素的原因。

我试图先使用 selenium 加载页面,然后获取我想要的内容但失败了。我正在尝试向下滚动以进入评论部分并获取其内容

这是他们拥有的一些先进的反机器人解决方案还是我的方法是错误的?

我目前拥有的代码:

import scrapy
from selenium import webdriver
import logging
import time

logging.getLogger('scrapy').setLevel(logging.WARNING)


class MySpider(scrapy.Spider):
    name = 'myspider'
    
    start_urls = ['https://pl.aliexpress.com/item/32998115046.html']

    def __init__(self):
        self.driver = webdriver.Chrome()

    def parse(self, response):
        self.driver.get(response.url)

        scroll_retries = 20
        data = ''
        while scroll_retries > 0:
            try:
                data = self.driver.find_element_by_class_name('feedback-list-wrap')
                scroll_retries = 0
            except:
                self.scroll_down(500)
                scroll_retries -= 1

        print("----------")
        print(data)
        print("----------")
        self.driver.close()

    def scroll_down(self, pixels):
        self.driver.execute_script("window.scrollTo(0, {});".format(pixels))
        time.sleep(2)
4

1 回答 1

1

通过在浏览器的检查工具中查看网络选项卡中的请求,您会发现评论来自这里,因此您可以抓取此页面。

于 2019-12-08T12:37:30.610 回答