我是数据挖掘(文本聚类)研究领域的新手,我有几个关于训练和测试数据集的问题。
- 聚类需要训练和测试数据集吗?
- 为什么我们需要分成训练和测试数据集?
很抱歉这个菜鸟问题希望这个小组的专家可以帮助我。
我是数据挖掘(文本聚类)研究领域的新手,我有几个关于训练和测试数据集的问题。
很抱歉这个菜鸟问题希望这个小组的专家可以帮助我。
由于您的问题是关于集群的:
在聚类分析中,通常没有训练或测试数据拆分。
因为您在没有标签时进行聚类分析,所以您无法“训练”。
训练是来自机器学习的一个概念,训练-测试拆分用于避免过拟合。
但是如果你不学习标签,你就不能过拟合。
正确使用聚类分析是一种知识发现方法。您想在数据中发现一些新结构,而不是重新发现已经标记的东西。
要训练您的数据,您需要一组与您的测试数据相似但不相同的相关数据。例如,您可以拆分数据,其中 0.7 个数据是训练数据,其余数据是测试数据。这将使您的算法能够了解它应该寻找的内容。其余数据 0.3 可用于测试,因为它是一组不同的信息(希望如此),应该允许算法进行自我测试。
为什么要拆分?好吧,如果您在数据 A 上训练您的数据,然后在数据 A 上测试您的算法,您的算法将能够正确识别所有信息,因为这是它所训练的。
例如,如果在学习加法时,你得到了 3+4、4+5、6+9 的和,你正确地解决了,那么使用相同的和来测试你的加法知识将是多余的。
更多信息:
http://en.wikipedia.org/wiki/Natural_language_processing
希望这可以帮助。