我在获取正确标记化的简单 URL 时遇到问题,以便您可以按预期搜索它。
我正在使用 StandardAnalyzer 索引“ http://news.bbc.co.uk/sport1/hi/football/internationals/8196322.stm ”,并将字符串标记为如下(调试输出):
(http,0,4,type=<ALPHANUM>)
(news.bbc.co.uk,7,21,type=<HOST>)
(sport1/hi,22,31,type=<NUM>)
(football,32,40,type=<ALPHANUM>)
(internationals/8196322.stm,41,67,type=<NUM>)
一般来说,它看起来不错,http 本身,然后是主机名,但问题似乎与正斜杠有关。当然它应该将它们视为单独的词吗?
我需要做什么来纠正这个问题?
谢谢
PS我正在使用Lucene.NET,但我真的认为它对答案没有太大影响。