我正在使用scrapy 来抓取具有一些奇怪格式约定的网站。基本思想是,我想要某个 div 的所有文本和子元素,除了开头的几个和结尾的几个。
这是要点。
<div id="easy-id">
<stuff I don't want>
text I don't want
<div id="another-easy-id" more stuff I don't want>
text I want
<stuff I want>
...
<more stuff I want>
text I want
...
<div id="one-more-easy-id" more stuff I *don't* want>
<more stuff I *don't* want>
注意:缩进意味着结束标签,所以这里的所有内容都是第一个 div 的子元素——id="easy-id"
因为文本和节点是混合的,所以我无法找到一个简单的 xpath 选择器来获取我想要的东西。此时,我想知道是否可以从 xpath 检索结果作为 lxml.etree.elementTree,然后使用 .remove() 方法对其进行破解。
有什么建议么?