python - 为什么我的一个网址在列表的一部分时没有被刮掉并且单独完成？

Question

我有一个需要抓取的 2600 多个 url 的列表，但是在蜘蛛的开发过程中，我只使用 115 个，每次我运行蜘蛛时，我都会得到不同的结果..（不更改代码）当我有 1 个 url单独爬行工作并按预期返回。但是当我在 115 的列表中运行它时，爬虫会抛出异常

我正在寻找一个特定的标签来获取一个字母数字字符列表。在大多数情况下，它总是在 javascript 标签中可用，这对大多数 URLS 都有效，但是它没有，所以我混合了 2查找方法以尝试找到我需要的信息的不同部分..

使用汤我用我想要的数据提取所有标签，然后循环获取我需要的文本..
使用汤我找到了 javascript 标签并通过它解析寻找我需要的 1 个键值，这并不总是 100%

我打开和关闭结果的网址是这个 https://www.dickssportinggoods.com/p/coleman-2-burner-propane-camp-stove-15colu2brnrstvxxxcac/15colu2brnrstvxxxcac吗？

在尝试抓取页面之前，我可以启用或更改哪些设置以允许页面有更多的加载时间？

这是我在 settings.py 文件中启用和配置的内容

# Enable and configure the AutoThrottle extension (disabled by default)
# See https://doc.scrapy.org/en/latest/topics/autothrottle.html
AUTOTHROTTLE_ENABLED = True
# The initial download delay
AUTOTHROTTLE_START_DELAY = 2
# The maximum download delay to be set in case of high latencies
AUTOTHROTTLE_MAX_DELAY = 20
# The average number of requests Scrapy should be sending in parallel to
# each remote server
AUTOTHROTTLE_TARGET_CONCURRENCY = 1.0
# Enable showing throttling stats for every response received:
#AUTOTHROTTLE_DEBUG = False

我正在寻找并期待“零件号”，而是收到如下错误：

jvscript = soup.select_one('#skuDescriptivattribute').text
AttributeError: 'NoneType' object has no attribute 'text'

python - 为什么我的一个网址在列表的一部分时没有被刮掉并且单独完成？

0 回答 0

Related

Reference