我希望有人能够提供一些关于使用 scrapy python 框架创建实时包装器的可行性的见解。
为了澄清我在这种情况下对“包装器”一词的定义,让我描述一下我的情况......我希望使用scrapy基本上编写一个解决方案,以允许用户在网站上执行搜索查询,这反过来又会调用实时抓取蜘蛛,其中蜘蛛被告知:
- 登录到第 3 方写入
- 执行用户搜索查询
- 通过指定唯一的结果集容器类和/或 xpath 提取结果 html 内容,仅检索返回查询的实际 html 结果)。
- 修改提取的 html 结果(通过改造 html 和/或注入新的页眉/页脚或 css 元素)。5)最后实时返回修改后的html结果,因此html可以直接注入原始域,对用户透明。
我应该指出,我熟悉编写用于大规模批量爬行的scrapy spider,但我不太熟悉能够使用它来构建实时类型的“包装器”的前景或可行性。
如果有人有任何见解、建议或示例来说明类似情况,我将不胜感激。甲烷