我想知道,数据挖掘中的MODEL是什么?谁能解释一下?
当我使用 Weka 时,我会获取我的数据,选择方法并通过单击开始按钮生成模型。任何人都可以解释这个模型背后的内容以及模型在我生成它之后是如何工作的。例如,它使用我选择的方法对示例进行分类?
请问有人可以解释这些事情吗?
我想知道,数据挖掘中的MODEL是什么?谁能解释一下?
当我使用 Weka 时,我会获取我的数据,选择方法并通过单击开始按钮生成模型。任何人都可以解释这个模型背后的内容以及模型在我生成它之后是如何工作的。例如,它使用我选择的方法对示例进行分类?
请问有人可以解释这些事情吗?
该模型仅描述了尝试处理新数据时使用的信息。在一个简单的垃圾邮件检测场景中,该算法通过查看带注释的电子邮件来确定哪些词似乎指向垃圾邮件,哪些不是。然后单词列表形成您的模型。
收到新电子邮件时,您不会将它们与其他真实电子邮件进行比较,而是会考虑新电子邮件的单词并检查您的模型(单词列表)是否它们似乎表示垃圾邮件。你看,你变得独立于你的训练数据,相反,你有一些知识试图对整个“垃圾邮件与非垃圾邮件”现实进行建模。
假设只有以下与音乐相关的变量:吉他独奏(has/hasn't)、音调突变(has/hasn't)、声乐(has/hasn't,男/女)、鼓(has/hasn) 't,常规/电子)。
现在,假设您喜欢有吉他独奏、突然的音调变化、有女声和电子鼓的音乐。另一方面,当音乐有吉他独奏、突然的音调变化、没有人声并且有正常的鼓声时,我会欣赏音乐)。
这些偏好可以被认为是我们享受音乐的模式。
现在,假设有一首歌有吉他独奏、突然的音调变化、女声和电子鼓。如果我们要判断你是否喜欢这首歌,答案是肯定的,那是 100% 的匹配。但是我呢?嗯,我很欣赏这首歌的 5 个特点中的 3 个,所以我可能会喜欢它。
我们上面给出的关于是否欣赏歌曲的答案可以看作是机器学习中的分类任务。现在,如果我们必须根据音乐偏好和上述音乐功能对每个人进行分组,我们就会对音乐听众进行聚类,等等。
我们如何为某事建立模型?当然,从数据来看。当您使用 Weka 时,您的 .arff 文件包含您的训练数据,Weka 使用这些数据来了解这些数据所描绘的事物(在我们的示例中,它将了解我们的音乐偏好)。
学习过程会生成一个模型,用于对新数据进行分类、分组等。例如,如果我们向 Weka 提供我们的音乐偏好并指示它使用贝叶斯分类器学习我们的模型,那么当我们为其提供特征时对于给定的歌曲,它将能够判断我们是否喜欢那首歌,以及在多大的概率内。