我的问题是我需要比较 URL 路径并推断它们是否相似。下面我提供要处理的示例数据:
# GROUP 1
/robots.txt
# GROUP 2
/bot.html
# GROUP 3
/phpMyAdmin-2.5.6-rc1/scripts/setup.php
/phpMyAdmin-2.5.6-rc2/scripts/setup.php
/phpMyAdmin-2.5.6/scripts/setup.php
/phpMyAdmin-2.5.7-pl1/scripts/setup.php
/phpMyAdmin-2.5.7/scripts/setup.php
/phpMyAdmin-2.6.0-alpha/scripts/setup.php
/phpMyAdmin-2.6.0-alpha2/scripts/setup.php
# GROUP 4
//phpMyAdmin/
我试过 Levenshtein 距离来比较,但对我来说不够准确。我不需要 100% 准确的算法,但我认为 90% 及以上是必须的。
我认为我需要某种分类器,但问题是新数据的每个部分都可以包含应该分类到新未知类的路径。
你能把我引到右边吗?
谢谢