1

我目前正在尝试清理 10-K 文件(确切地说是 2690)以获得纯文本(没有 html-tags 等)。其中,我想在下一步计算可读性分数。然而,清理文本正在成为一个比我想象的更大的问题。由于建议不要将正则表达式用于 html 文件,因此我尝试了使用 get_text 方法的 BeautifulSoup:

response = requests.get(r"https://www.sec.gov/Archives/edgar/data/827054/0000827054-14-000140.txt")
soup = BeautifulSoup(response.content, "lxml")
text = soup.get_text(' ',strip = True)

这适用于一小部分文本,但随后我得到以下混乱:

:</font></div><div style="line-height:120%;text-align:left;text-indent:48px;font-size:10pt;"><font style="font-family:inherit;font-size:10pt;"><br clear="none"/></font></div><div style="line-height:120%;text-align:center;font-size:10pt;"><div style="padding-left:0px;text-indent:0px;line-height:normal;padding-top:10px;"><table cellpadding="0" cellspacing="0" style="font-family:Times New Roman;font-size:10pt;margin-left:auto;margin-right:auto;width:100%;border-collapse:collapse;text-align:left;"><tr><td colspan="12" rowspan="1"></td></tr><tr><td width="65%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="9%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="9%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="9%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td></tr><tr><td style="vertical-ali:</font></div><div style="line-height:120%;text-align:left;text-indent:48px;font-size:10pt;"><font style="font-family:inherit;font-size:10pt;"><br clear="none"/></font></div><div style="line-height:120%;text-align:center;font-size:10pt;"><div style="padding-left:0px;text-indent:0px;line-height:normal;padding-top:10px;"><table cellpadding="0" cellspacing="0" style="font-family:Times New Roman;font-size:10pt;margin-left:auto;margin-right:auto;width:100%;border-collapse:collapse;text-align:left;"><tr><td colspan="12" rowspan="1"></td></tr><tr><td width="65%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="9%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="9%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td><td width="9%" rowspan="1" colspan="1"></td><td width="1%" rowspan="1" colspan="1"></td></tr><tr><td style="vertical-align:bottom;padding-left:2px;padding-top:2px;padding-bottom:2px;padding-right:2px;" rowspan="1" colspan="1"><div style="overflow:hidden;font-size:10pt;"><font style="font-family:inherit;gn:bottom;padding-left:2px;padding-top:2px;padding-bottom:2px;padding-right:2px;" rowspan="1" colspan="1"><div style="overflow:hidden;font-size:10pt;"><font style="font-family:inherit;

这个问题是否有一个优雅的解决方案,或者我是否必须使用正则表达式并尝试获取可用于进一步分析的版本中的文本?

4

0 回答 0