以以下链接为例:http ://www.yelp.com/biz/chef-yu-new-york 。
在名为“评论亮点”的部分中,根据用户提交的评论突出显示了 3 个短语(辣鸡丁、欢乐时光、特价午餐)。显然,这些是出现频率最高的词组,或者出现频率最长的词组,或者其他一些逻辑。
他们的官方解释是这样的:
在他们的评论中,Yelpers 经常提到下面的链接短语。这些不是任何古老的常用短语,它们也是我们的 Yelp 机器人确定的独特、良好、快速的方式来描述这项业务。单击任何短语以查看提及它的所有评论。
我的问题是,他们用什么来挖掘文本输入来获取这些数据点?是基于 Lempel Ziv 的某种算法,还是某种 map reduce?我不是 CS 专业的,所以可能在这里遗漏了一些基础知识。希望得到一些帮助,理论等。
谢谢!