5

我需要从 YouTube 上抓取 PSY 的江南风格视频的所有评论(超过 2,600,000 条评论,超过 5000 页),请参阅: http ://www.youtube.com/all_comments?v=9bZkp7q19f0

问题是:

1) 如果我使用 gdata 服务,谷歌只提供不超过 1000 个评论提要

2)如果我直接从以下位置抓取html标签:

site(http://www.youtube.com/all_comments?v=9bZkp7q19f0&page=$(page))

通过增加 page 参数,它会在第 #101 页之后失败,该页面上没有显示评论。

所以请大家,我该如何解决这个问题?

PS:我的爬虫是使用javascript实现的chrome扩展,它检查加载页面的评论标签,然后加载下一页。

4

1 回答 1

1

您可以通过爬取页面并针对遇到的问题破解代码来提取数据,但这不是正确的方法。

您应该为此使用youtube api并检查与此相关的其他开发人员资源

于 2012-11-03T13:22:25.117 回答