python - Scrapy：如何在不重新下载html的情况下重现结果？

Question

使用 Scrapy 将 HTML 下载到我的硬盘（例如，使用带有 field 的内置 Item ExportersHTML或将所有 HTML 文件存储到一个文件夹）后，我如何使用 Scrapy 再次从我的硬盘读取数据并执行下一步管道？有类似物品进口商的东西吗？

score 2 · Accepted Answer

如果 HTML 页面存储在您运行 Scrapy 的本地 PC 上，您可以像这样抓取 URI：

file:///tmp/page1.html

使用 Scrapy。在此示例中，我假设一个这样的页面存储在文件中/tmp/page1.html。

第二种选择是使用任何方式来获取文件的内容并手动构建一个Selector对象，如下所示：

import scrapy

# read the content of the page into page_content variable
root_sel = scrapy.Selector(text=page_content)

然后您可以正常处理root_sel选择器，例如

title = root_sel.css('h1.title').extract_first()

1 回答 1