1

我有一个这样的用户访问日志:

pagename    url
broker_pv   /broker/934832
broker_pv   /broker/983432
broker_pv   /broker/n/342349
listing_pv  /listing/a1-b2/
listing_pv  /listing/c3/

我想知道未来的网址“/broker/245729”是否属于“broker_pv”或“listing_pv”,或者根本不匹配。

这就像一个机器学习过程:我向计算机输入一些原始数据,它会学习,然后帮助我过滤事物。

我能想到的一种方法是“模式查找器”过程。即,从原始输入中,我们人类可以推断出“broker_pv” url 将匹配模式“/broker/(n/)?[0-9]+”。所以当像“/broker/245729”这样的url出现时,我可以针对它测试所有模式,并判断它属于哪个“pagename”。

那么问题是,如何找出这些模式,从而建立一个“页面名称-模式对集合”以供进一步使用。

或者有更好的方法,希望?

4

0 回答 0