简短的问题:
有没有人有任何 C# 代码来解析 robots.txt,然后根据它评估 URL,所以看看它们是否会被排除在外。
长问题:
我一直在为尚未发布给谷歌的新网站创建站点地图。站点地图有两种模式,用户模式(如传统站点地图)和“管理员”模式。
管理模式将显示网站上所有可能的 URL,包括自定义条目 URL 或特定外部合作伙伴的 URL - 例如example.com/oprah
在 Oprah 上看到我们网站的任何人。我想在 Excel 电子表格以外的地方跟踪已发布的链接。
我不得不假设有人可能会/oprah
在他们的博客或其他地方发布链接。我们实际上并不希望这个“迷你奥普拉网站”被编入索引,因为它会导致非奥普拉观众能够找到奥普拉的特别优惠。
因此,在创建站点地图的同时,我还添加了 URL,例如/oprah
要从我们的robots.txt
文件中排除。
然后(这是实际的问题)我想“能够在站点地图上显示文件是否被索引并且对机器人可见不是很好吗”。这将非常简单 - 只需解析 robots.txt,然后评估针对它的链接。
然而,这是一个“奖励功能”,我当然没有时间去写它(甚至认为它可能没有那么复杂) - 所以我想知道是否有人已经编写了任何代码来解析 robots.txt ?