我正在尝试进行非常基本的规范化,并意识到在很大程度上 url 规范化是一项不可能完成的任务。
无论如何,不同的搜索引擎会使用不同的方案、主机等返回相同的搜索结果。我需要收集的最基本部分是什么,你能用 parse_url 收集多个部分以只留下 url 的重要部分吗?
结果 1:http ://dogs.com 结果 2: http: //www.dogs.com
无需考虑这些可能由不同搜索引擎生成的不一致
我正在尝试进行非常基本的规范化,并意识到在很大程度上 url 规范化是一项不可能完成的任务。
无论如何,不同的搜索引擎会使用不同的方案、主机等返回相同的搜索结果。我需要收集的最基本部分是什么,你能用 parse_url 收集多个部分以只留下 url 的重要部分吗?
结果 1:http ://dogs.com 结果 2: http: //www.dogs.com
无需考虑这些可能由不同搜索引擎生成的不一致
结果 1:http ://dogs.com结果 2: http: //www.dogs.com
这两个不一样:一个是主域,另一个是子域。不能保证它们提供相同的内容。
您所要求的基本上是不可能的:URL 的任何部分都很重要,更改它可能会导致不同的页面。
也就是说,有一个<meta>
标签canonical
表示页面的规范化 URL。只有那个 URL(在某种程度上)保证是正确的。
此外,您可以从页面中提取内容并进行比较。但是,同样,不能保证。