过去几天我一直在学习 python。今天我带来了一个叫做网络抓取的主题。我正在尝试刮除第一个 3 p 标签之外的 div 内的所有 p 标签。由于 p 标签没有类或 id,我无法找到取消抓取它们的方法
我的代码:
from bs4 import BeautifulSoup
data = '''<div class="one">
<p style="color:red">Dummy Text</p>
<p style="color:red">Unwanted Text</p>
<p style="color:red">No Text</p>
<p style="color:red">Lorem ipsum dolor sit amet</p>
<p style="color:red">sed do eiusmod tempor incididunt</p>
<p style="color:red">consectetur adipiscing elit</p>
<p style="color:red">ut labore et dolore magna</p>
</div>'''
text = BeautifulSoup(data, 'html.parser')
for result in text.find_all('p'):
print(result.get_text())
我的输出:
- 虚拟文本
- 不需要的文本
- 没有文字
- Lorem ipsum dolor sit amet
- sed 做 eiusmod 临时事件
- consectetur adipiscing 精英
- ut labore et dolore magna
我需要什么:
- Lorem ipsum dolor sit amet
- sed 做 eiusmod 临时事件
- consectetur adipiscing 精英
- ut labore et dolore magna
由于我是 SOF 的新手,如果我违反了任何准则,请在评论中提及。