如果我有一个包含大量线程的论坛站点,搜索引擎机器人是否会每次都抓取整个站点?假设我的站点中有超过 1,000,000 个线程,每次机器人抓取我的站点时它们都会被抓取吗?或者它是如何工作的?我希望我的网站被索引,但我不希望机器人杀死我的网站!换句话说,我不希望机器人每次抓取我的网站时都一遍又一遍地抓取旧线程。
另外,之前爬过的页面呢?机器人每次爬取我的网站时都会请求它们以确保它们仍在网站上吗?我问这个是因为我只链接到最新线程,即有一个页面包含所有最新线程的列表,但我没有链接到旧线程,它们必须通过 URL 明确请求,例如 http ://example.com/showthread.aspx?threadid=7,这是否可以阻止机器人使我的网站停机并消耗我所有的带宽?
PS 该网站仍在开发中,但我想知道以设计该网站,以免搜索引擎机器人将其关闭。