2

我正在尝试为学校制作一个 Internet 搜索引擎,仅使用 C# 和 .NET 框架。我需要下载要编入索引的页面的 HTML 代码。

现在只需要一个有效 URL 的列表。

由于我没有有效 URL 的数据库,所以我做了一个试错算法,它会生成一个字符串:

a, b, c.....
aa, ab, ac......
aaa, aab, aac......
aaaa, aaab, aaac......
aaaaa, aaaab, aaaac......

然后尝试与 .com、.net 或其他连接。这太低效了。

我需要一个具有有效 URL 的数据库。你知道我在哪里可以买到吗?

我不知道如何将它们直接从 DNS 中取出 - 这可能吗?

4

1 回答 1

2

你可以建立你自己的。大多数搜索引擎会抓取页面并跟踪指向其他页面的链接。

你从一个已知的列表开始(它不必很大)然后:

  1. 访问列表中的页面
  2. 在这些页面上查找链接
  3. 将这些链接添加到您的列表中
  4. 转到 1

至于使用DNS;它不是为查询 URL 而设计的,只用于查询主机名。而且,据我所知,除非您自己管理服务器,否则您无法从 DNS 服务器中获取每个主机名的列表。

于 2013-03-19T02:44:24.657 回答