我刚刚开始在 Python 2.7.2 中使用 BeautifulSoup 进行屏幕抓取,我想从这个网站上获取数据:
http://www.trainsimple.com/SelfPaced.aspx
但是,如果我使用 .prettify() 函数,使用 urllib2 打开这个 URL 并使用 LXML 解析它会产生很多垃圾。
查看页面源代码后,我看到页面实际上是使用 javascript 呈现的,并且 div 是动态加载的。
有谁知道如何从这个网站获取数据?
谢谢
我刚刚开始在 Python 2.7.2 中使用 BeautifulSoup 进行屏幕抓取,我想从这个网站上获取数据:
http://www.trainsimple.com/SelfPaced.aspx
但是,如果我使用 .prettify() 函数,使用 urllib2 打开这个 URL 并使用 LXML 解析它会产生很多垃圾。
查看页面源代码后,我看到页面实际上是使用 javascript 呈现的,并且 div 是动态加载的。
有谁知道如何从这个网站获取数据?
谢谢