我正在尝试从任意 html 页面中提取文本。一些页面(我无法控制)有格式错误的 html 或脚本,这使得这很困难。此外,我在共享托管环境中,所以我可以安装任何 python 库,但我不能只在服务器上安装我想要的任何东西。
pyparsing 和 html2text.py 似乎也不适用于格式错误的 html 页面。
示例 URL 为http://apnews.myway.com/article/20091015/D9BB7CGG1.html
我目前的实现大致如下:
# Try using BeautifulSoup 3.0.7a
soup = BeautifulSoup.BeautifulSoup(s)
comments = soup.findAll(text=lambda text:isinstance(text,Comment))
[comment.extract() for comment in comments]
c=soup.findAll('script')
for i in c:
i.extract()
body = bsoup.body(text=True)
text = ''.join(body)
# if BeautifulSoup can't handle it,
# alter html by trying to find 1st instance of "<body" and replace everything prior to that, with "<html><head></head>"
# try beautifulsoup again with new html
如果 beautifulsoup 仍然不起作用,那么我求助于使用启发式方法来查看第一个字符,最后一个字符(看看它们是否看起来像它的代码行 # < ; 并对该行进行采样,然后检查令牌是英文单词或数字。如果很少有标记是单词或数字,那么我猜该行是代码。
我可以使用机器学习来检查每一行,但这似乎有点贵,而且我可能必须对其进行训练(因为我对无监督学习机器了解不多),当然也要编写它。
任何建议、工具、策略都将受到欢迎。我还意识到,后半部分相当混乱,因为如果我得到一个确定包含代码的行,我目前会丢弃整行,即使该行中有少量实际的英文文本。