我正在尝试编写一个脚本来抓取当前排名前 10 的 PR/Alexa 网站。因为 PR/Alexa 经常变化。所以我的脚本应该解决这个问题我的意思是如果今天没有前 10 名的网站但明天可能会出现。
我不知道如何开始。我知道爬行概念,但在这里我被卡住了。可能有前 50 个站点甚至前 500 个站点。我当然可以配置。
我读过关于谷歌蜘蛛的文章,但对于这个简单的任务来说它非常复杂。Google、Yahoo、Bing 如何在网络上抓取数十亿个网站。我只是好奇。什么是光标点,我的意思是谷歌如何识别新的启动站点。
好的,这些都是非常深刻的细节,我稍后会读到这些。现在我更关心我的问题。我如何爬取前 10 名 PR 网站。
你能提供一个示例程序以便我更好地理解吗?