我想使用 python2.7 从 EDGAR 文件(可作为 .txt 文件在线获得)中删除任何不是文档文本的内容。文件的外观示例如下:
EDGAR 从该文件的第 48 页开始提供其文档类型定义:
我的程序的第一部分将 .txt 文件从 EDGAR 在线数据库中获取到我命名为“parseme.txt”的本地文件中。我想知道的是如何使用 DTD 来解析 .txt 文件。我会使用像 BeautifulSoup 这样的罐装解析模块来完成这项工作,但 EDGAR 的格式看起来很独特,我希望避免使用大型正则表达式来完成工作。
import os
filename = 'parseme.txt'
with open(filename) as f:
lines = f.readlines()
我的问题与Parse SGML with Open Arbitrary Tags in Python 3和Use lxml to parse text file with bad header in Python有关,但我认为与 python2.7 相关,我不关心标题- 我只关心文件的文本。