我有一个包含数万个 XML 文件(小型文件)的语料库,我正在尝试使用 Python 并提取其中一个 XML 标记中包含的文本,例如,body 标记之间的所有内容,例如:
<body> sample text here with <bold> nested </bold> tags in this paragraph </body>
然后编写一个包含此字符串的文本文档,然后在 XML 文件列表中向下移动。
我正在使用 effbot 的 ELementTree,但找不到正确的命令/语法来执行此操作。我找到了一个使用 miniDOM 的 dom.getElementsByTagName 的网站,但我不确定 ElementTree 的相应方法是什么。任何想法将不胜感激。