6

简短的问题:

有没有人有任何 C# 代码来解析 robots.txt,然后根据它评估 URL,所以看看它们是否会被排除在外。

长问题:

我一直在为尚未发布给谷歌的新网站创建站点地图。站点地图有两种模式,用户模式(如传统站点地图)和“管理员”模式。

管理模式将显示网站上所有可能的 URL,包括自定义条目 URL 或特定外部合作伙伴的 URL - 例如example.com/oprah在 Oprah 上看到我们网站的任何人。我想在 Excel 电子表格以外的地方跟踪已发布的链接。

我不得不假设有人可能会/oprah在他们的博客或其他地方发布链接。我们实际上并不希望这个“迷你奥普拉网站”被编入索引,因为它会导致非奥普拉观众能够找到奥普拉的特别优惠。

因此,在创建站点地图的同时,我还添加了 URL,例如/oprah要从我们的robots.txt文件中排除。

然后(这是实际的问题)我想“能够在站点地图上显示文件是否被索引并且对机器人可见不是很好吗”。这将非常简单 - 只需解析 robots.txt,然后评估针对它的链接。

然而,这是一个“奖励功能”,我当然没有时间去写它(甚至认为它可能没有那么复杂) - 所以我想知道是否有人已经编写了任何代码来解析 robots.txt ?

4

3 回答 3

8

讨厌这么说,但只需谷歌“C# robots.txt 解析器”并单击第一个命中。这是一篇关于在 C# 中实现的名为“Searcharoo”的简单搜索引擎的 CodeProject 文章,它包含一个类 Searcharoo.Indexer.RobotsTxt,描述为:

  1. 检查,如果存在,下载并解析站点上的 robots.txt 文件
  2. 为 Spider 提供一个接口来检查每个 Url 是否符合 robots.txt 规则
于 2009-03-11T06:25:53.090 回答
3

我喜欢http://code.google.com/p/robotstxt/中的代码和测试,我会推荐它作为起点。

于 2012-05-14T23:46:50.613 回答
1

有点自我推销,但由于我需要一个类似的解析器并且找不到任何我满意的东西,我创建了自己的:

http://nrobots.codeplex.com/

我喜欢任何反馈

于 2010-09-13T19:01:48.440 回答