我正在尝试在 html 文档中获取一些内容。一些文档有一个目录,可以很好地指示我要删除的内容在文档中的位置。那就是标签的 value 或 text_content 很容易识别并指向我需要的内容。例如,我可能在 toc 中有两个具有以下值的锚标记
key=href value=#listofplaces text_content=Places we have visited
key=href value=#transport text_content=Ways we have traveled
然后在文档的正文中
key=name value=listofplaces text_content=''
然后有很多 html 元素,一些表格,可能还有一些 div 标签,一些未知数量的元素,然后是下一个锚点
key=name value=transport text_content=''
我正计划使用函数的输出来识别我想从文档中复制的部分的开头和结尾。那就是我要阅读文档并剪掉锚标签 listofplaces 和 transport 之间的部分。我开始认为 LXML 是如此强大,以至于我想要的内容可能是某种我无法弄清楚它的身份的分支。