algorithm - 如何搜索纽约市的餐厅？

Question

我有一个网络爬虫和整个网络来爬取。我的策略应该是什么？我应该使用什么样的分类算法？

我说我有一个网络爬虫，我的意思是手动爬取网络。

score 2 · Accepted Answer

您可以尝试对您抓取的每个页面进行分类，并确定它是否是餐厅（二元分类器）并使用监督学习。

您可以为此使用词袋模型——这意味着，将词用作“特征”，它们的存在（和出现次数）决定了特征的价值。

您还需要首先手动标记一组页面并确定它们是否是餐厅页面。您生成的数据称为您的训练集。

请注意，词袋模型往往具有巨大的特征空间——因此您将需要一个对非信息特征不敏感的分类器。

您可以稍后使用交叉验证来估计您的模型有多好。

以下是我发现在使用词袋模型对数据进行分类时有用的一些建议：

1 回答 1