我目前正在开发一个从给定 URL 中提取各种数据的程序。为此,我有一个函数可以梳理 URL 并从源代码构建所有位置的数组。这工作得很好,我已经设法过滤页面以检查是否有文件,而不是在页面上等。
我的麻烦是我已经在一些网站上测试了这个,这些网站在菜单选项下有一个带有子页面的菜单。导航栏上的主要选项将有一个页面值,子导航上的第一个选项将是同一页面,但在 URL 的末尾有一个值(主要用于在 javascript 之间切换)。我已经尝试对页面进行编码并进行比较(以缩短处理时间),但是在某些网站上,URL 被放入表单字段中。
Example:
Option1 - www.example.com/page1
- first opt - www.example.com/page1?t=1
- second opt - ww.example.com/page1?t=2
由于某些站点仅使用这些值而其他页面使用 JS,因此无法从看起来的内容中删除附加标签。由于 URL 在技术上是不同的,有没有办法检查页面是否相同,即使它们位于不同的 URL 上?