0

我做了一个网络爬虫来爬取 IMDB 上的信息。它通过将 url 中的数字更改为不同的随机数字来遍历每个页面,然后在这个新页面上重复网络抓取过程。

http://www.imdb.com/title/tt0800369/ <--为新电影更改此号码。

我怎样才能在 BFI 网站上做到这一点?我看不到从电影到电影的方式。

提前致谢!

4

1 回答 1

1

遵循随机生成的链接并不是遍历 WWW 的最有效方式……您确实应该遵循在其他页面上找到的 URL。您可以使用crawler4j,它似乎是最容易开始的 Java 爬虫。还有一些替代方案

于 2013-10-25T21:34:42.700 回答