3

我目前正在使用 urllib2 和 BeautifulSoup 来打开和解析 html 数据。但是,我遇到了一个在页面呈现后使用 javascript 加载图像的网站的问题(我试图在页面上找到某个图像的图像源)。

我在想 Twill 可能是一个解决方案,并且正在尝试打开页面并使用带有“find”的正则表达式来返回我正在寻找的 html 字符串。我在让它工作时遇到了一些麻烦,而且似乎找不到任何关于如何将正则表达式与斜纹一起使用的文档或示例。

任何有关如何执行此操作或解决此问题的帮助或建议将不胜感激。

4

2 回答 2

0

斜纹不适用于 javascript(请参阅http://twill.idyll.org/browsing.html

如果要处理 javascript,请使用 webdriver

于 2012-12-02T21:24:20.250 回答
0

我宁愿在页面源代码上使用 CSS 选择器或“真实”正则表达式。斜纹布是 AFAIK 尚未开发。您是否尝试过使用 CSS 选择器的 BS 或 PyQuery?

于 2012-07-29T20:50:13.703 回答