我需要用 python 做一些 HTML 解析。经过一些研究,lxml 似乎是我最好的选择,但我很难找到可以帮助我完成我想做的事情的例子。这就是我听到的原因。我需要为所有可见文本抓取一个页面.. 去掉所有标签和 javascript.. 我需要它给我留下可见的文本。听起来很简单.. 我用 HTMLParser 做到了,但它不能很好地处理 javascript
class HTML2Text(HTMLParser.HTMLParser):
def __init__(self):
HTMLParser.HTMLParser.__init__(self)
self.output = cStringIO.StringIO()
def get_text(self):
return self.output.getvalue()
def handle_data(self, data):
self.output.write(data)
def ParseHTML(source):
p = HTML2Text()
p.feed(source)
text = p.get_text()
return text
任何关于使用 lxml 或更好的方法来做到这一点的想法 HTMLParser .. HTMLParser 将是最好的,因为不需要额外的库 .. 谢谢大家
斯科特 F。