0

我想抓取一些网页,如下所示

http://www.youtube.com/user/koglin66/feed?filter=2

但有一个“加载更多”按钮,它与 ajax 请求有关

http://www.youtube.com/channel_ajax?action_load_more_feed_items=1&activity_view=1&paging=1352148528&channel_id=UCCw8aVnsIeu9S6OPQyaQ14g

我想爬取整个页面。手动,我反复点击按钮,直到没有更多的加载,通过自动化,我怎样才能爬取整个页面?谢谢!

4

2 回答 2

1

是的,您可以使用 Selenium IDE,或使用其他带有浏览器核心的程序/库来执行点击操作。像webkit,IE的activex。

你可以试试 FMiner http://www.fminer.com/,它可以在浏览器上记录和播放人类动作来抓取数据,但它不是免费的。

于 2013-08-06T01:59:03.283 回答
0

我最近在我想废弃的其他网站上遇到了同样的问题。我使用 Java,在网络上进行了一些研究后,我将 Selenium IDE 用于 firefox,您可以在其中编写 Java Junit 测试用例,它会自动打开网页并单击按钮、填写表单等。它还支持 C#、Python、Ruby、 ETC

我用它来点击加载更多按钮,当页面在所有点击后完全加载时,我手动保存了它。

你可以从他们的网站下载 Selenium,我发现这个 youtube 视频也很有用http://www.youtube.com/watch?v=twdDfDOrHC4

于 2013-03-17T06:23:01.883 回答