0

对于与此类似的研究项目,我想从python 文档中提取所有“文档单元”。 python 文档中的文档单元可以是(作为 html-meta 标记):

  • 方法(dl 类:方法)
  • 一个 (dl类:类)
  • 一个部分(div 类:部分)

并且这些应该是嵌套的:一个部分包含几个es,其中包含几个方法s。但实际上这是非常不规则的。

示例1:如果一个部分包含多个类和方法:我想单独获取每个方法,每个类没有方法(我已经得到)和没有类的部分(我已经有)并且没有方法(我也已经有了),但其余的(因为那里有很多额外的东西)

Example2:如果一个方法或一个类没有出现它们的部分,我也想要它们,并且不能忘记它们。

注意:这并不容易,但我想将它们全部放在一个列表中,该列表与原始文档中的顺序相同。

我用 BeautifulSoup 进行了尝试,但我想为此我需要搜索“从叶到根”以首先获得最深的元素——BeautifulSoup4 不支持(AFAIK)。

首先,我认为问题是避免重复,但实际上这不是主要问题。

我很欣赏你的提示。

4

1 回答 1

1

似乎这是不可能的。

所以我为解决这个问题所做的就是一次又一次地迭代元素(我使用.descendants),然后我用占位符替换了嵌套元素以使更改可见(使用replace_with)。

正如我之前使用的 .descendants 一样,无论如何都会存储嵌套元素。

于 2014-04-23T11:12:07.640 回答