我想对我无法访问的 java 脚本页面的 html 源代码进行网络抓取,而无需在下拉列表中选择一个选项,然后“单击”链接。尽管没有使用过java,但一个简单的例子可以是这样的:
网络抓取该 URL 底部下拉列表中所有可用语言的主要维基百科页面:http: //www.wikipedia.org/
为此,我需要选择一种语言,例如英语,然后在新网址左侧的“主页”链接中“单击”(http://en.wikipedia.org/wiki/Special:Search ?search=&go=Go)。
在这一步之后,我会用英文抓取维基百科主页的 html 源代码。
有没有办法使用 R 来做到这一点?我已经尝试过 RCurl 和 XML 包,但它不适用于 javascript 页面。
如果 R 不可能,谁能告诉我如何用 python 做到这一点?