php - 如何使用 parse_url 规范化 url？

Question

我正在尝试进行非常基本的规范化，并意识到在很大程度上 url 规范化是一项不可能完成的任务。

无论如何，不同的搜索引擎会使用不同的方案、主机等返回相同的搜索结果。我需要收集的最基本部分是什么，你能用 parse_url 收集多个部分以只留下 url 的重要部分吗？

结果 1：http ://dogs.com 结果 2： http: //www.dogs.com

无需考虑这些可能由不同搜索引擎生成的不一致

score 1 · Accepted Answer

结果 1：http ://dogs.com结果 2： http: //www.dogs.com

这两个不一样：一个是主域，另一个是子域。不能保证它们提供相同的内容。

您所要求的基本上是不可能的：URL 的任何部分都很重要，更改它可能会导致不同的页面。

也就是说，有一个<meta>标签canonical表示页面的规范化 URL。只有那个 URL（在某种程度上）保证是正确的。

此外，您可以从页面中提取内容并进行比较。但是，同样，不能保证。

1 回答 1