我正在为网站的内容编制索引,并且我想仅基于 url 实现一些分类。
我想从导航页面告诉 appart 内容视图页面。“内容查看页面”是指通常可以查看产品或书面文章详细信息的网页。“导航页面”是指(通常)由指向内容页面或其他更具体列表页面的链接列表组成的页面。
尽管有些站点使用站点范围的密钥系统来映射其内容,但大多数站点都会一点一点地进行并确定其密钥映射的范围,因此这应该是可能的。
在实践中,我想要做的是从站点中获取 url 列表并按相似度对它们进行分组。我相信这可以通过机器学习来完成,但我不知道怎么做。机器学习似乎是一个广泛的话题,我应该特别开始阅读什么?哪些概念,哪些算法,哪些工具?