4

我试图找出一种通过 R 脚本控制浏览器(最好是 Firefox)的方法,以便在网站中检索由 AJAX/Javascripts 控制的信息。例如,如何在http://www.mobile.de/home/index.html中检索“Modell”字段中的值?

AFAIU,Gabe Becker 的包“RFirefox”确实提供了 R 和 Firefox 之间的某种联系。但是作为一个 Windows-Kid(不是因为信念,而是长期存在的网络效应 ;-)),我自己还不能尝试,所以我不确定它是否能达到我想要的效果。

那么:有没有人对 RFirefox 或通过 R 处理 AJAX 有一定的经验?不想让你做我的功课,但在我进入 Linux 世界之前,我只想评估一下它是否值得。

尽管如此,任何代码示例将不胜感激。;-)

4

1 回答 1

3

我不清楚为什么您需要浏览器来执行此操作。这只是网络抓取;当然,它需要某种解析器,但不一定是浏览器。我认为 RFirefox 可能是在吠叫错误的树。如果您想使用 Javascript+R 连接,请查看 Duncan Temple Lang 的SpiderMonkey

即便如此,我认为使用适合使用 Javascript 的更严格的爬取/抓取工具收集数据可能会更好。 关于 SO 的这个问题似乎与此特别一致。我的建议是获得一个可以满足您的需求的工具,然后以最简单的级别将其与 R 接口。Webkit 有多种语言的绑定,尽管 R 似乎不是这种情况。

这个问题更密切地解决了您的情况:它也在 Windows 上。它不使用 Webkit。已接受答案中的三个建议是指从 Python 访问用 C/C++ 编写的工具。R 具有两者的接口,因此您可能会发现编写一些东西来使用它们并在 R 和 Python 或 C/C++ 之间来回传递对象和指令更容易。

于 2011-10-26T16:03:17.487 回答