-1

我正在尝试进行非常基本的规范化,并意识到在很大程度上 url 规范化是一项不可能完成的任务。

无论如何,不​​同的搜索引擎会使用不同的方案、主机等返回相同的搜索结果。我需要收集的最基本部分是什么,你能用 parse_url 收集多个部分以只留下 url 的重要部分吗?

结果 1:http ://dogs.com 结果 2: http: //www.dogs.com

无需考虑这些可能由不同搜索引擎生成的不一致

4

1 回答 1

1

结果 1:http ://dogs.com结果 2: http: //www.dogs.com

这两个不一样:一个是主域,另一个是子域。不能保证它们提供相同的内容。

您所要求的基本上是不可能的:URL 的任何部分都很重要,更改它可能会导致不同的页面。

也就是说,有一个<meta>标签canonical表示页面的规范化 URL。只有那个 URL(在某种程度上)保证是正确的。

此外,您可以从页面中提取内容并进行比较。但是,同样,不能保证。

于 2013-07-28T14:13:42.630 回答