-6

我有一个网络爬虫和整个网络来爬取。我的策略应该是什么?我应该使用什么样的分类算法?

我说我有一个网络爬虫,我的意思是手动爬取网络。

4

1 回答 1

2

您可以尝试对您抓取的每个页面进行分类,并确定它是否是餐厅(二元分类器)并使用监督学习

您可以为此使用词袋模型——这意味着,将词用作“特征”,它们的存在(和出现次数)决定了特征的价值。

您还需要首先手动标记一组页面并确定它们是否是餐厅页面。您生成的数据称为您的训练集

请注意,词袋模型往往具有巨大的特征空间——因此您将需要一个对非信息特征不敏感的分类器。

您可以稍后使用交叉验证来估计您的模型有多好。

以下是我发现在使用词袋模型对数据进行分类时有用的一些建议:

  • 支持向量机往往非常有用,并且为词袋模型产生了非常好的结果。我没有看到线性核和高斯核的性能有显着差异。
  • 使用词干和过滤停用词- 你不需要它产生的噪音。
  • 使用二元语法,它们提供的信息非常丰富,至少对我而言 - 往往会显着提高分类器的准确性。
于 2013-01-16T21:26:46.430 回答