asp.net-mvc - 防止机器人爬取网站的某些区域

Question

我不太了解 SEO 和网络蜘蛛的工作原理，所以请原谅我的无知。我正在创建一个站点（使用 ASP.NET-MVC），该站点具有显示从数据库检索到的信息的区域。数据对用户来说是唯一的，因此没有真正的服务器端输出缓存正在进行。但是，由于数据可能包含用户可能不希望从搜索引擎结果中显示的内容，我想阻止任何蜘蛛访问搜索结果页面。我应该采取什么特殊措施来确保不抓取搜索结果目录？此外，蜘蛛是否会抓取动态生成的页面，并且阻止某些目录被搜索的任何操作是否会扰乱我的搜索引擎排名？

编辑：我应该补充一下，我正在阅读robots.txt协议，但它依赖于网络爬虫的合作。但是，我还想阻止任何会忽略 robots.txt 文件的数据挖掘用户。

我很感激任何帮助！

score 2 · Accepted Answer

您可以通过在服务器上实施限制来防止某些恶意客户端过多地攻击您的服务器。“抱歉，你的IP在这几分钟内向这个服务器发出了太多的请求，请稍后再试。” 但在实践中，假设您无法阻止真正恶意的用户绕过您设置的任何限制机制。

鉴于此，这是更重要的问题：

您对您向全世界提供的信息感到满意吗？您的用户对此感到满意吗？

如果这些问题的答案是否定的，那么您应该确保只有授权用户才能看到敏感信息。如果信息不是特别敏感，但您不希望客户端抓取它，限制可能是一个不错的选择。无论如何，您是否有可能被爬网？如果没有，robots.txt 应该没问题。

score 2 · Accepted Answer

好像你有2个问题。

首先是对某些数据出现在搜索结果中的担忧。第二个关于恶意或不道德的用户获取用户相关数据。

第一个问题将通过适当使用 robots.txt 文件来解决，因为所有大型搜索引擎都尊重这一点。

第二个问题似乎更多地与数据隐私有关。立即浮现在脑海中的第一个问题是：如果存在人们可能不想显示的用户信息，您为什么要完全提供它？
此类数据的隐私政策是什么？
用户是否有能力控制提供哪些信息？
如果信息可能敏感但对系统很重要，是否可以对其进行限制，使其仅对登录用户可用？

score 1 · Accepted Answer

查看机器人排除标准。它是您放在网站上的一个文本文件，它告诉机器人它可以索引什么，不能索引什么。您还需要解决如果机器人不遵守 robots.txt 文件会发生什么情况。

score 1 · Accepted Answer

如上所述的 robots.txt 文件。如果这还不够，那么您可以：

阻止未知的用户代理 - 难以维护，机器人很容易伪造浏览器（尽管大多数合法的机器人不会）
阻止未知 IP 地址 - 对公共站点无用
需要登录
限制用户连接 - 调整起来很棘手，您仍将披露信息。

也许通过使用组合。无论哪种方式，它都是一种权衡，如果公众可以浏览它，那么机器人也可以。确保您在尝试阻止机器人时不会阻止和疏远他人。

score 0 · Accepted Answer

几个选项：

强制用户登录查看内容
在内容前添加验证码页面
在 Flash 中嵌入内容
使用 JavaScript 动态加载

asp.net-mvc - 防止机器人爬取网站的某些区域

5 回答 5

Related

Reference