0

我有一个机器学习问题。我得到了一长串域名,我必须弄清楚哪些是电子商务网站,哪些是个人网站。这是一个难题,因为我没有任何训练数据可供使用。我想出了几个想法:

  1. 手动浏览数百个这样的网站,以判断它们是商业网站还是个人网站,并以这种方式开发训练集(又长又无聊!)。

  2. 爬取这些网站并搜索一些关键字,例如。“立即购买”、“价格”、“信用卡”。等等

有人有其他方法吗?

谢谢

4

1 回答 1

2

您可以自适应地修改您的关键字集:当您四处搜寻时,可以将与现有关键字高度相关的单词添加到列表中。彼得 ps 我会将其添加为评论,但我没有足够的声誉点...

于 2013-08-22T20:58:07.357 回答