问题陈述有点像这样:
给定一个网站,我们必须将其分类为两个预定义的类别之一(比如它是否是电子商务网站?)
我们已经使用多种预处理技术(停用词删除、词干提取等)和适当的特征尝试了朴素贝叶斯算法。
我们希望将准确度提高到 90 或更接近,但我们无法从这种方法中获得。
这里的问题是,在手动评估准确性时,我们会在网页上寻找一些标识符(例如结帐按钮、商店/购物、贝宝等),这些标识符有时会在我们的算法中被遗漏。
我们在想,如果我们对这些标识符太确定,为什么不创建一个rule based classifier
我们将根据一组规则(将根据某些优先级编写)对页面进行分类的位置。
例如,如果它包含商店/购物并且有结帐按钮,那么它就是一个电子商务页面。以及许多按优先级顺序排列的类似规则。
根据一些规则,我们也会访问网站的其他页面(目前,我们只访问主页,这也是精度不高的一个原因)。
基于规则的方法我们将面临哪些潜在问题?还是对我们的用例更好?
FOIL, AQ
用复杂的算法(例如等)创建这些规则是个好主意吗?