2

我希望有人能够提供一些关于使用 scrapy python 框架创建实时包装器的可行性的见解。

为了澄清我在这种情况下对“包装器”一词的定义,让我描述一下我的情况......我希望使用scrapy基本上编写一个解决方案,以允许用户在网站上执行搜索查询,这反过来又会调用实时抓取蜘蛛,其中蜘蛛被告知:

  1. 登录到第 3 方写入
  2. 执行用户搜索查询
  3. 通过指定唯一的结果集容器类和/或 xpath 提取结果 html 内容,仅检索返回查询的实际 html 结果)。
  4. 修改提取的 html 结果(通过改造 html 和/或注入新的页眉/页脚或 css 元素)。5)最后实时返回修改后的html结果,因此html可以直接注入原始域,对用户透明。

我应该指出,我熟悉编写用于大规模批量爬行的scrapy spider,但我不太熟悉能够使用它来构建实时类型的“包装器”的前景或可行性。

如果有人有任何见解、建议或示例来说明类似情况,我将不胜感激。甲烷

4

1 回答 1

1

您可以在http://htql.net/尝试 Python 的 HTQL 浏览器界面。实时必应搜索的一个示例是:

import htql;
a=htql.Browser(); 
b=a.goUrl("http://www.bing.com/");
c=a.goForm("<form>1", {"q":"test"});
for d in htql.HTQL(c[0], "<a (tx like '%test%')>"): 
    print(d);

e=a.click("<a (tx like '%test%' and not (href like '/search%'))>1");

它可以与 IRobotSoft scraper 结合使用,通过将浏览器更改为:

a=htql.Browser(2); 

更多详细信息可以从本手册http://htql.net/htql-python-manual.pdf或在http://irobotsoft.org/bb/询问

于 2013-08-25T01:06:18.810 回答