我正在为 html 页面实现一个网络爬虫。问题是上下文关系,因为我需要确定我得到的内容与数据库中其他内容之间的关系,所以我可以说是,它们是相关的或不相关的:
前(1)
$str1 = "president obama visited Barcelona yesterday"; //politics context
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context
前(2)
$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context
$str4 = "Late Night show with jimmy fallon"; //mdeia context
在第一个例子中
$str1和$str2在上下文中是不同的,所以关系可能是10%或更少
在第二个例子中
$str3和$str4在同一个上下文中(媒体)虽然 $str3 是关于奥巴马总统的,$str4是关于吉米法伦的,但两者都与深夜秀有关,所以关系可能是90%
我正在使用 Porter-Stemmer 算法从单词中删除常见的结尾。接下来做什么?