python - Scrapy 可以用作实时包装器吗？

Question

我希望有人能够提供一些关于使用 scrapy python 框架创建实时包装器的可行性的见解。

为了澄清我在这种情况下对“包装器”一词的定义，让我描述一下我的情况......我希望使用scrapy基本上编写一个解决方案，以允许用户在网站上执行搜索查询，这反过来又会调用实时抓取蜘蛛，其中蜘蛛被告知：

登录到第 3 方写入
执行用户搜索查询
通过指定唯一的结果集容器类和/或 xpath 提取结果 html 内容，仅检索返回查询的实际 html 结果）。
修改提取的 html 结果（通过改造 html 和/或注入新的页眉/页脚或 css 元素）。5）最后实时返回修改后的html结果，因此html可以直接注入原始域，对用户透明。

我应该指出，我熟悉编写用于大规模批量爬行的scrapy spider，但我不太熟悉能够使用它来构建实时类型的“包装器”的前景或可行性。

如果有人有任何见解、建议或示例来说明类似情况，我将不胜感激。甲烷

score 1 · Accepted Answer

您可以在http://htql.net/尝试 Python 的 HTQL 浏览器界面。实时必应搜索的一个示例是：

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

它可以与 IRobotSoft scraper 结合使用，通过将浏览器更改为：

a=htql.Browser(2);

更多详细信息可以从本手册http://htql.net/htql-python-manual.pdf或在 http://irobotsoft.org/bb/询问

python - Scrapy 可以用作实时包装器吗？

1 回答 1

Related

Reference