1

我想阅读 robots.txt 文件 (www.abcd.com/robots.txt) 的文本,其中包含来自我的 C# 应用程序的站点地图 url。如果 robots.txt 文件中存在站点地图 url,我必须使用 if else 来生成警报,然后它显示“是”并且它不包含站点地图 url,那么它将显示“否”。

Robots.txt 文件文本如下所示:

# Crawlers Setup
User-agent: *
Disallow:
Crawl-delay: 10

# Website Sitemap
Sitemap: http://www.abcd.com/sitemap.xml

我如何从 robots.txt 文件中读取此站点地图文本,因为 robots.txt 也是一个链接,实际上不是文本文件。它是 www.abcd.com/robots.txt

4

2 回答 2

4

您可以使用RobotsTxt 之类的库(免责声明:此处为项目所有者)。例子:

string contentsOfRobotsTxtFile = new WebClient().DownloadString("uri");
Robots robots = Robots.Load(content);
var sitemaps = robots.Sitemaps;

它也可以在 Nuget 上使用;http://www.nuget.org/packages/RobotsTxt/

于 2013-10-31T13:29:08.457 回答
-1

您只需阅读文件,如下所示:

string contentOfRobotTxt= new WebClient().DownloadString("http://www.abcd.com/robots.txt");
于 2013-09-16T06:32:15.597 回答