我目前正在使用 urllib2、pyquery 和 json 的融合来抓取网站,现在我发现我需要从 JavaScript 中提取一些数据。一种想法是使用 JavaScript 引擎(如 V8),但这对于我需要的东西来说似乎有点矫枉过正。我会使用正则表达式,但这个表达式似乎很复杂。
JavaScript:
(function(){DOM.appendContent(this, HTML("<html>"));;})
我需要提取<html>
,但我不完全确定该怎么做。<html>
本身基本上可以包含太阳下的所有字符,因此行不通[^"]
。
有什么想法吗?