1

我正在为 html 页面实现一个网络爬虫。问题是上下文关系,因为我需要确定我得到的内容与数据库中其他内容之间的关系,所以我可以说是,它们是相关的或不相关的:

前(1)

$str1 = "president obama visited Barcelona yesterday"; //politics context
$str2 = "Barcelona was defeated from Chelsea yesterday"; //sports context

前(2)

$str3 = "Obama's appearance on Late Night With Jimmy Fallon "; //media context
$str4 = "Late Night show with jimmy fallon"; //mdeia context

在第一个例子中

$str1$str2在上下文中是不同的,所以关系可能是10%或更少

在第二个例子中

$str3$str4在同一个上下文中(媒体)虽然 $str3 是关于奥巴马总统的,$str4是关于吉米法伦的,但两者都与深夜秀有关,所以关系可能是90%

我正在使用 Porter-Stemmer 算法从单词中删除常见的结尾。接下来做什么?

4

2 回答 2

1

关键字是字符串度量、模糊匹配...

看看这个:如何打火柴

于 2012-04-28T02:09:23.853 回答
0
$exstr1=explode(" ", $str1);
$exstr2=explode(" ", $str2);
foreach( $exstr1 as $exitem)
{
     if (in_array($exitem, $exstr2 ) $match++;
      else $mis++;
}
$percent=$match/($match+$mis)*100;
于 2014-10-10T12:21:09.713 回答