我需要将给定的文件解析为字符串列表,给定的文件样式是这样的:
<DOC>
<DOCNUM> NUMBER </DOCNUM>
<DOCTYPE> TYPE </DOCTYPE>
<HEADER>
&SOMETHING
</HEADER>
<BODY>
<HEADLINE>
SOME TEXT
</HEADLINE>
TEXT
TEXT
TEXT
<TEXT>
<P>
INPUT TEXT1
</P>
<P>
INPUT TEXT2
</P>
.
.
.
</TEXT>
</BODY>
</DOC>
我需要列出 P 标签外观内的所有 TEXTi 实例。我尝试使用 lxml xml 解析器执行此操作,但因为 &something 在 xml 格式中是不可接受的,所以它不起作用……我尝试使用 html 解析器,但我没有弄清楚如何使其工作。
有谁知道我获得所需清单的好方法?