0

我正在使用以下脚本来抓取信息以创建邮政邮寄标签。

该脚本从ul我的县公共税收数据库的类“描述关键字”标签中抓取所有数据。

我的问题是如何只抓取类“描述键”的前 3 个li元素。ul请记住,此类在 html 中使用了 100 多次,我只需要包含邮寄地址信息的前 3 个元素。

我需要添加什么才能仅获取li我需要的元素?

该脚本运行良好,但它获取了太多信息。

谢谢

以下代码行获取了我需要的所有数据,但还提供了 2 个我不需要的额外li元素。

a = soup.findAll(attrs={"class" : "description keywords"})

我只需要收集类的前3个li元素- ul“描述关键字”

4

1 回答 1

0
soup.find_all('title', limit=1)

您可以将限制设置为find_all。这实际上不会让你的代码更快,因为find_all它仍然被调用——它只是返回更少的结果。对于实际更快的处理,您可以调用find_next3 次。

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-the-tree

于 2012-10-05T19:02:57.060 回答