我将调查回复存储在 xml 中,不幸的是 xml 并没有统一构建。请参阅下面的 xml。
我想遍历 div,然后将所有<b>
元素作为问题提取出来,但我不确定如何处理答案,因为它们有时包含在子中<div>
,有时不包含。
我正在考虑使用 elementtree 的互文或美丽的汤。但是如果我做一个soup.find_all('div')
. tree.itertext()
有点工作,但如果可能的话,我不想有太多的嵌套循环。
任何建议如何最好地处理这种情况?
<html>
<body>
<div>
<b>Question 1: What is your name?</b>
My name is Peter.
</div>
<div>
<b>Question 2: What is your native language?</b>
<div>Esperanto</div>
</div>
</body>
</html>