我正在编写一个爬虫蜘蛛,我希望用户能够提供一个 html 标签,例如<span class="someclass"></span>
or<a style="somestuff"></a>
然后使用这些标签来提取 betwen 中的文本并将其放入我的结果中。我真的不希望用户必须提供 Xpath。我知道使用 xpath 编写代码可能更容易,但我会让我的爬虫可供不那么精通技术的用户使用。
你会怎么做?
看看这个
http://django-dynamic-scraper.readthedocs.org/en/latest/
我已经尝试过效果很好,您也可以链接到 django 模型。
你可以从那里得到很多想法,如何接受用户输入