我正在尝试从 python 中的 txt 文件中提取代码的 xml 部分。我正在使用的当前 txt 文件来自 edgar 数据库,并且在一个 txt 文件中具有 10-k 报告的多种表示形式,先是 html,然后是 xml,然后是其他一些表示形式,例如 PDF。
如果有人知道提取此 xml 的方法以便我可以使用它的标签,我将不胜感激。
这是我正在谈论的 txt 文件的示例: https ://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt