对于与此类似的研究项目,我想从python 文档中提取所有“文档单元”。 python 文档中的文档单元可以是(作为 html-meta 标记):
- 方法(dl 类:方法)
- 一个类 (dl类:类)
- 一个部分(div 类:部分)
并且这些应该是嵌套的:一个部分包含几个类es,其中包含几个方法s。但实际上这是非常不规则的。
示例1:如果一个部分包含多个类和方法:我想单独获取每个方法,每个类没有方法(我已经得到)和没有类的部分(我已经有)并且没有方法(我也已经有了),但其余的(因为那里有很多额外的东西)
Example2:如果一个方法或一个类没有出现它们的部分,我也想要它们,并且不能忘记它们。
注意:这并不容易,但我想将它们全部放在一个列表中,该列表与原始文档中的顺序相同。
我用 BeautifulSoup 进行了尝试,但我想为此我需要搜索“从叶到根”以首先获得最深的元素——BeautifulSoup4 不支持(AFAIK)。
首先,我认为问题是避免重复,但实际上这不是主要问题。
我很欣赏你的提示。