0

如果我有链接说http://yahoo.com/那么我可以在 yahoo 中获取链接吗?例如,我有一个网站http://umair.com/,我知道只有 5 页主页、关于、投资组合、常见问题、联系方式,所以我可以通过编程方式获取如下链接吗?

http://umair.com/index.html
http://umair.com/about.html
http://umair.com/portfolio.html
http://umair.com/faq.html
http://umair.com/contact.html
4

2 回答 2

1

定义“雅虎内部链接”的含义。

您是指在“ http://www.yahoo.com ”返回的页面上有链接的所有页面吗?如果是这样,您可以读取 HTTP GET 请求返回的 HTML,并解析它以查找<a>元素。您可以使用“HTML Agility Pack”寻求帮助。

如果您的意思是“该域服务器上的所有页面”,可能不是。大多数网站都定义了一个默认页面,当您没有明确请求时您会获得该页面。(例如,请求http://umair.com几乎肯定会返回http://umair.com/index.html)。 很少有网站没有定义默认值,它们会返回一个文件列表。

如果您的意思是“该域的服务器上的所有页面,即使它们定义了默认页面”,则不能这样做。这将是对安全性的极大破坏。

于 2010-08-30T20:05:33.713 回答
0

这可以通过网络爬虫来完成,阅读一些关于它的基本信息:

http://en.wikipedia.org/wiki/Web_crawler

包括开源爬虫,看看它们是否是你要找的。

于 2010-08-30T20:05:59.277 回答