您可以尝试对您抓取的每个页面进行分类,并确定它是否是餐厅(二元分类器)并使用监督学习。
您可以为此使用词袋模型——这意味着,将词用作“特征”,它们的存在(和出现次数)决定了特征的价值。
您还需要首先手动标记一组页面并确定它们是否是餐厅页面。您生成的数据称为您的训练集。
请注意,词袋模型往往具有巨大的特征空间——因此您将需要一个对非信息特征不敏感的分类器。
您可以稍后使用交叉验证来估计您的模型有多好。
以下是我发现在使用词袋模型对数据进行分类时有用的一些建议:
- 支持向量机往往非常有用,并且为词袋模型产生了非常好的结果。我没有看到线性核和高斯核的性能有显着差异。
- 使用词干和过滤停用词- 你不需要它产生的噪音。
- 使用二元语法,它们提供的信息非常丰富,至少对我而言 - 往往会显着提高分类器的准确性。