1

我正在学习制作蜘蛛和爬虫。这种爬虫是我的激情所在,我将长期这样做。对于解析,我正在考虑使用 BeautifulSoup。但是有人说如果我使用lxml,我将拥有更多的控制权。

现在我知道的不多。但即使使用 lxml 更难,我也准备好努力工作。但如果这能让我完全控制,那么我已经准备好了。

那么你的意见是什么?

4

1 回答 1

3

我真的不认为这个问题有很大的意义。你需要更多地解释你的目标到底是什么。 BeautifulSoup并且lxml是两个在很大程度上做相同事情的工具,但具有不同的功能和 API 理念和结构。

这不是“哪个给你更多控制权”的问题,而是“哪个是适合工作的工具?” 我两个都用。我更喜欢这种BeautifulSoup语法,因为我发现它更自然,但是lxml当我尝试基于变量动态解析未知量时,我发现它会更好——例如,生成包含变量值的 XPath 字符串,然后我将使用它从不同的页面中提取特定元素。

所以真的,这取决于你想要做什么。

TL;博士

我发现BeautifulSoup使用起来更容易、更自然,但lxml最终会变得更强大、更通用。此外,lxml赢得速度比赛,毫无疑问。

于 2012-11-27T05:41:50.957 回答