我正在尝试在 python webscraper 中构建一个函数,该函数将移动到结果列表中的下一页。我无法在美丽的汤中找到元素,因为链接位于许多其他标签的末尾,并且没有任何属性,例如类或 ID。
这是html的一个片段:
<a href="http://www.url?&=page=2">
Next
</a>
我一直在阅读 bs4 文档,试图了解如何提取 URL,但我被难住了。我认为它可以通过以下任一方式完成:
- 在父元素中找到最后一个 .a['href'] ,因为它始终是最后一个。
- 根据它始终具有“下一个”文本的事实来查找href
我不知道如何编写可以解决 1. 或 2. 的问题。
我走对了吗?有没有人有任何建议来实现我的目标?谢谢