我有一个需要抓取的 2600 多个 url 的列表,但是在蜘蛛的开发过程中,我只使用 115 个,每次我运行蜘蛛时,我都会得到不同的结果..(不更改代码)当我有 1 个 url单独爬行工作并按预期返回。但是当我在 115 的列表中运行它时,爬虫会抛出异常
我正在寻找一个特定的标签来获取一个字母数字字符列表。在大多数情况下,它总是在 javascript 标签中可用,这对大多数 URLS 都有效,但是它没有,所以我混合了 2查找方法以尝试找到我需要的信息的不同部分..
使用汤我用我想要的数据提取所有标签,然后循环获取我需要的文本..
使用汤我找到了 javascript 标签并通过它解析寻找我需要的 1 个键值,这并不总是 100%
我打开和关闭结果的网址是这个 https://www.dickssportinggoods.com/p/coleman-2-burner-propane-camp-stove-15colu2brnrstvxxxcac/15colu2brnrstvxxxcac吗?
在尝试抓取页面之前,我可以启用或更改哪些设置以允许页面有更多的加载时间?
这是我在 settings.py 文件中启用和配置的内容
# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 2
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 20
# The average number of requests Scrapy should be sending in parallel to
# each remote server
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False
我正在寻找并期待“零件号”,而是收到如下错误:
jvscript = soup.select_one('#skuDescriptivattribute').text
AttributeError: 'NoneType' object has no attribute 'text'