2

我是数据挖掘(文本聚类)研究领域的新手,我有几个关于训练和测试数据集的问题。

  1. 聚类需要训练和测试数据集吗?
  2. 为什么我们需要分成训练和测试数据集?

很抱歉这个菜鸟问题希望这个小组的专家可以帮助我。

4

2 回答 2

7

由于您的问题是关于集群的:

在聚类分析中,通常没有训练或测试数据拆分

因为您在没有标签时进行聚类分析,所以您无法“训练”。

训练是来自机器学习的一个概念,训练-测试拆分用于避免过拟合

但是如果你不学习标签,你就不能过拟合

正确使用聚类分析是一种知识发现方法。您想在数据中发现一些新结构,而不是重新发现已经标记的东西。

于 2012-11-15T10:21:04.100 回答
0
  1. 要训​​练您的数据,您需要一组与您的测试数据相似但不相同的相关数据。例如,您可以拆分数据,其中 0.7 个数据是训练数据,其余数据是测试数据。这将使您的算法能够了解它应该寻找的内容。其余数据 0.3 可用于测试,因为它是一组不同的信息(希望如此),应该允许算法进行自我测试。

  2. 为什么要拆分?好吧,如果您在数据 A 上训练您的数据,然后在数据 A 上测试您的算法,您的算法将能够正确识别所有信息,因为这是它所训练的。

例如,如果在学习加法时,你得到了 3+4、4+5、6+9 的和,你正确地解决了,那么使用相同的和来测试你的加法知识将是多余的。

更多信息:

http://en.wikipedia.org/wiki/Natural_language_processing

http://www.nltk.org/book

希望这可以帮助。

于 2012-11-15T10:16:18.363 回答