我有一个 HTML 文件:
<html>
<p>somestr
<sup>1</sup>
anotherstr
</p>
</html>
我想将文本提取为:
somestr 1另一个
但我不知道该怎么做。我编写了一个to_sup()
将数字字符串转换为上标的函数,所以我得到的最接近的是:
for i in doc.xpath('.//p/text()|.//sup/text()'):
if i.tag == 'sup':
print to_sup(i),
else:
print i,
但是我ElementStringResult
似乎没有获取标签名称的方法,所以我有点迷茫。任何想法如何解决它?