我们在我们的网站上跟踪用户代理字符串。我想对它们做一些统计,看看我们有多少 IE6 用户(所以我们知道我们必须针对什么进行开发),以及我们有多少移动用户。
所以我们有这样的日志条目:
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; FunWebProducts)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; FunWebProducts; .NET CLR 1.0.3705; .NET CLR 1.1.4322; Media Center PC 4.0; .NET CLR 2.0.50727)
理想情况下,看到所有“有意义的”字符串会非常整洁,这意味着可能字符串长度可能超过一定长度。例如,我可能想查看其中有多少条目FunWebProducts
,或.NET CLR
,或.NET CLR 1.0.3705
-- 但我不想查看有多少条目带有分号。所以我不一定要寻找唯一的字符串,而是所有的字符串,甚至是子集。所以,我想看看 all 的计数Mozilla
,知道这包括Mozilla/5.0
and的计数Mozilla/4.0
。如果有一个嵌套显示,从最短的字符串开始,然后向下工作,那就太好了。也许像
4,2093 Mozilla
1,093 Mozilla/5.0
468 Mozilla/5.0 (Windows;
47 Mozilla/5.0 (Windows; U
2,398 Mozilla/4.0
这听起来像是计算机科学作业。这会叫什么?是否存在类似的东西,还是我自己写?