1

我正在编写一个爬虫蜘蛛,我希望用户能够提供一个 html 标签,例如<span class="someclass"></span>or<a style="somestuff"></a>然后使用这些标签来提取 betwen 中的文本并将其放入我的结果中。我真的不希望用户必须提供 Xpath。我知道使用 xpath 编写代码可能更容易,但我会让我的爬虫可供不那么精通技术的用户使用。

你会怎么做?

4

1 回答 1

0

看看这个

http://django-dynamic-scraper.readthedocs.org/en/latest/

我已经尝试过效果很好,您也可以链接到 django 模型。

你可以从那里得到很多想法,如何接受用户输入

于 2013-01-20T02:13:51.857 回答