在How to combine scrapy and htmlunit to crawl urls with javascript的问题中,建议使用 webkit 和 scrapy 来遍历 javascript。但是,这个示例 Snipplr 片段说:
import gtk
import webkit
import jswebkit
我是 Python 新手。据我了解,webkit(用 C/C++ 编写)需要有 Python 包装器。我环顾四周,但找不到类似的东西。任何建议表示赞赏。
在How to combine scrapy and htmlunit to crawl urls with javascript的问题中,建议使用 webkit 和 scrapy 来遍历 javascript。但是,这个示例 Snipplr 片段说:
import gtk
import webkit
import jswebkit
我是 Python 新手。据我了解,webkit(用 C/C++ 编写)需要有 Python 包装器。我环顾四周,但找不到类似的东西。任何建议表示赞赏。
这是您可以从这里开始的最简单的示例
import gtk
import webkit
view = webkit.WebView()
sw = gtk.ScrolledWindow()
sw.add(view)
win = gtk.Window(gtk.WINDOW_TOPLEVEL)
win.add(sw)
win.show_all()
view.open("http://w3.org/")
gtk.main()
您可以从这里了解更多信息http://code.google.com/p/pywebkitgtk/ 也可以在这里查看 http://dvlabs.tippingpoint.com/blog/2011/11/28/malicious-content-harvesting