我正在 Rails 中开发一个应用程序,需要检查输入的网站是否生成了搜索引擎友好的 URL。我想到的解决方案是使用 nokogiri 解析网站的 HTML 并查看链接标签以查找 URL 和看看他们是否对搜索引擎友好。还有其他方法可以做到吗?任何帮助都会非常棒。
问问题
263 次
1 回答
5
你在这里有两个问题:
您如何正式(以编程方式)定义什么是“搜索引擎友好的 URL”。我假设你已经有一些方法可以做到这一点。所以留下...
如何检查网站上的所有链接。
因此,对于 (2),我会看一些像Anemone这样的东西,它可以让您轻松抓取完整的网站:
Anemone 是一个 Ruby 库,可让您快速轻松地编写爬取网站的程序。它提供了一个简单的 DSL,用于在站点的每个页面上执行操作,跳过某些 URL,并计算到站点上给定页面的最短路径。
多线程设计使 Anemone 速度更快。API 使它变得简单。Ruby 的表现力使它变得强大。
对于简单的抓取,Anemone 甚至会为您提供页面上所有链接的数组,因此您甚至不需要 Nokogiri。对于更复杂的东西,也许您想将 Anemone 与Mechanize和 Nokogiri 之类的东西结合起来。这取决于您的要求。
于 2012-07-03T10:20:17.473 回答