降维究竟是什么意思?
我搜索了它的含义,我只是发现它意味着将原始数据转换为更有用的形式。那么拥有有用形式的数据有什么好处,我的意思是我如何在实际生活(应用程序)中使用它?
降维究竟是什么意思?
我搜索了它的含义,我只是发现它意味着将原始数据转换为更有用的形式。那么拥有有用形式的数据有什么好处,我的意思是我如何在实际生活(应用程序)中使用它?
降维是关于将非常高维的数据转换为低得多的数据,这样每个低维都可以传达更多的信息。
这通常是在解决机器学习问题以获得更好的分类或回归任务特征时完成的。
这是一个人为的例子 - 假设您有一个包含 100 部电影和 1000 人的列表,并且对于每个人,您知道他们是喜欢还是不喜欢这 100 部电影中的每一部。因此,对于每个实例(在这种情况下表示每个人),您都有一个长度为 100 的二进制向量 [如果该人不喜欢第 i 部电影,则位置 i 为 0,否则为 1]。
您可以直接在这些向量上执行机器学习任务。但是您可以决定 5 种类型的电影并使用您已有的数据,确定该人是否喜欢或不喜欢整个类型,并通过这种方式减少您的数据从大小为 100 的向量到大小为 5 的向量 [如果该人喜欢流派 i,则位置 i 为 1]
长度为 5 的向量可以被认为是长度为 100 的向量的一个很好的代表,因为大多数人可能只喜欢他们喜欢的类型的电影。
然而,它不会是一个确切的代表,因为在某些情况下,一个人可能讨厌除一部之外的所有类型的电影。
关键是,减少的向量在较大的向量中传达了大部分信息,同时消耗的空间更少,计算速度更快。
你的问题有点含糊,但有一种有趣的统计技术可能是你所想的,称为主成分分析,它做类似的事情(顺便绘制结果,这是我的第一个真实世界编程任务)
这是一种简洁而巧妙的技术,应用非常广泛。我将它应用于蛋白质氨基酸序列之间的相似性,但我已经看到它用于分析从细菌之间的关系到麦芽威士忌的所有内容。
考虑一组事物的某些属性的图表,其中一个具有两个自变量 - 分析这些事物的关系显然是在二维上绘制的,您可能会看到点的分散。如果你有三个变量,你可以使用 3D 图形,但在那之后一个开始用完尺寸。
在 PCA 中,可能有几十个甚至上百个或更多独立因素,所有这些因素都需要绘制在垂直轴上。使用 PCA 进行此操作,然后分析生成的多维图以在图中找到包含最大信息量的两个或三个轴的集合。例如,第一个主坐标将是一个复合轴(即在某个角度穿过 n 维空间),当点沿它绘制时,它具有最多的信息。第二个轴垂直于此(记住这是n维空间,所以有很多垂直线),其中包含第二大信息量等。
以 2D 或 3D 绘制结果图通常会给您一个数据的可视化,其中包含原始数据集中的大量信息。通常认为该技术有效的是寻找包含大约 70% 原始数据的表示 - 足以以一定的信心可视化关系,否则在原始统计数据中将不明显。请注意,该技术要求所有因素具有相同的权重,但考虑到它是一种应用极为广泛的方法,值得更广泛地了解并且可用于大多数统计软件包(我在 1980 年对 ICL 2700 进行了研究——即和 iPhone 一样强大)
测量某事物的维数是描述它所需的数字数量。因此,例如,描述空间中一个点的位置所需的数字数量将是 3(x、y 和 z)。
现在让我们考虑一列火车沿着一条长而曲折的轨道穿过山脉的位置。乍一看,这似乎是一个 3 维问题,需要指定经度、纬度和高度测量值。但是,如果您只是从一开始就沿着轨道行驶的距离,则可以将这 3 个维度减少为 1 个维度。
如果您的任务是使用神经网络或某种统计技术来预测在给定一定数量的燃料的情况下火车可以走多远,那么使用 1 维数据比使用 3 维数据要容易得多。
http://en.wikipedia.org/wiki/Dimension_reduction
可能你听说过 PCA(principle component analysis),它是一种降维算法。
其他包括 LDA、基于矩阵分解的方法等。
这是一个简单的例子。您有很多文本文件,每个文件都包含一些单词。那里的文件可以分为两类。您希望将文件可视化为 2D/3D 空间中的一个点,以便您可以清楚地看到分布。因此,您需要进行降维以将包含大量单词的文件转换为仅 2 或 3 维。
假设您正在构建一个包含大量成年人信息的数据库。它也将非常详细。所以我们可以说数据库将有很大的维度。
AAMOF 每个数据库记录实际上都会包含一个人的智商和鞋码的测量值。现在让我们假设这两个特征高度相关。与智商相比,鞋码可能更容易测量,我们希望尽快用有用的数据填充数据库。我们可以做的一件事是向前迈进,为新的数据库记录记录鞋码,推迟收集智商数据的任务以备后用。我们仍然可以使用鞋码来估计智商,因为这两个指标是相关的。
我们将使用一种非常简单的实际降维形式,最初将 IQ 排除在记录之外。主成分分析、各种形式的因子分析等方法都是对这一简单思想的延伸。