0

使用 Scrapy 将 HTML 下载到我的硬盘(例如,使用带有 field 的内置 Item ExportersHTML或将所有 HTML 文件存储到一个文件夹)后,我如何使用 Scrapy 再次从我的硬盘读取数据并执行下一步管道?有类似物品进口商的东西吗?

4

1 回答 1

2

如果 HTML 页面存储在您运行 Scrapy 的本地 PC 上,您可以像这样抓取 URI:

file:///tmp/page1.html

使用 Scrapy。在此示例中,我假设一个这样的页面存储在文件中/tmp/page1.html

第二种选择是使用任何方式来获取文件的内容并手动构建一个Selector对象,如下所示:

import scrapy

# read the content of the page into page_content variable
root_sel = scrapy.Selector(text=page_content)

然后您可以正常处理root_sel选择器,例如

title = root_sel.css('h1.title').extract_first()
于 2017-06-20T06:07:33.030 回答