1

大家好,我正在尝试为我的爬虫解析的 html 页面上的所有单词创建索引。此刻,我已设法将 html 页面分解为一组单词,并且过滤掉了所有停用词。

在这个阶段,我有一些问题。

解析后的 html 页面中的单词数组有重复的单词,我喜欢这样,因为我仍然需要记录一个单词在页面中出现的次数。

数组看起来像这样。

$wordsFromHTML =    
array (size=119)
      0 => string 'web' (length=3)
      1 => string 'giants' (length=6)
      2 => string 'vryheid' (length=7)
      3 => string 'news' (length=4)
      4 => string 'access' (length=6)
      5 => string 'mails' (length=5)
      6 => string 'mobile' (length=6)
      7 => string 'february' (length=8)
      8 => string 'access' (length=6)
      9 => string 'mails' (length=5)
     10 => string 'web' (length=3)
     11 => string 'february' (length=8)
     12 => string 'access' (length=6)
     13 => string 'mails' (length=5)
     14 => string 'desktop' (length=7)
     15 => string 'february' (length=8)
     16 => string 'hosting' (length=7)
     17 => string 'web' (length=3)
     18 => string 'giants' (length=6)
     19 => string 'vryheid' (length=7)
     20 => string 'february' (length=8)
     22 => string 'us' (length=2)

现在我想将 $wordsFromHTML 中的所有单词保存到 $indesArray 中,这是我的最终索引。

它应该看起来像这样。

$indexArray = array('web'=>array('url'=>array(0,10,17)))

问题是如何不断增加从最终索引数组中的数组$wordsFromHTML重复的每个单词的位置(键) 。$wordsFromHTML

索引数组应该只有唯一的单词,如果另一个已经存在的单词试图进来,我们使用已经存在的具有相同 URL 的单词并增加它的位置。

希望你能理解我的问题。

4

0 回答 0