0

我是数据挖掘领域的新手。我正在研究非常有趣的 Data Minign 问题。数据说明如下:

数据是时间敏感的。项目属性取决于时间因素及其类别标签。我将每周数据分组为训练或测试记录的一个实例。每周,一些项目属性可能会随着它的流行度(即类别标签)而变化。

部分样本数据如下:

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌​tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

我的研究顾问建议使用朴素贝叶斯算法,它可以适应这种随时间变化的动态数据。

我使用 2000-2004 年的数据作为训练,2005 年作为测试。如果我在我的项目数据集中包含 Week-Year 属性,那么它将导致朴素贝叶斯的概率为 0。按时间顺序组织数据后,可以从我的数据集中省略此属性吗?

此外,当我阅读新的测试用例时如何调整我的模型?因为新的测试用例可能会导致类标签的变化?

4

1 回答 1

0

你能提供更多关于你的方法的见解吗?例如,您使用的是 R、SPSS、Python、SQL Server 2008R2 还是 RapidMiner 5.2?如果您可以包含一些数据的非常小的(3-4 行段),这将有助于人们弄清楚如何解决这个问题。

了解您正在查看的内容的一种直接方法是进行随机森林/决策树和 K-Means 聚类,以确定数据中的常见分离点。您是否开始快速浏览数据的直方图、平均值和异常值?

于 2012-11-27T13:30:01.843 回答