我是数据挖掘领域的新手。我正在研究非常有趣的 Data Minign 问题。数据说明如下:
数据是时间敏感的。项目属性取决于时间因素及其类别标签。我将每周数据分组为训练或测试记录的一个实例。每周,一些项目属性可能会随着它的流行度(即类别标签)而变化。
部分样本数据如下:
IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestActress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1
我的研究顾问建议使用朴素贝叶斯算法,它可以适应这种随时间变化的动态数据。
我使用 2000-2004 年的数据作为训练,2005 年作为测试。如果我在我的项目数据集中包含 Week-Year 属性,那么它将导致朴素贝叶斯的概率为 0。按时间顺序组织数据后,可以从我的数据集中省略此属性吗?
此外,当我阅读新的测试用例时如何调整我的模型?因为新的测试用例可能会导致类标签的变化?