问题标签 [dimension-reduction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
svd - 使用 SVD 降维后,降维后的 dimsnion 是什么意思?
我不了解算法级别的 SVD。但我知道人们用它来减少维度。我有两个共现矩阵(维度是 50,000 字乘 50,000 字),它们存储有关任何单词一起使用的次数的信息。这两个矩阵的构造方式相同(行和列相互匹配)。
如果我执行 SVD 将它们的维度减少到 300,两个矩阵的新列是否仍然相互匹配并表示相同的语言结构?
python - 高维与距离的诅咒
为了从视频帧中提取特征(2 个样本/秒),我在 python 中使用 keras 框架并加载输入大小为 (150,150,3) 且输出大小为 (4,4,512) 的 VGG16。在特征提取步骤之后,我想用 Hierarchical K-Means 对帧特征进行聚类。
我的问题如下:
我将每个帧特征保存在一个大小为 8192 的向量中。对于具有 8000 帧的视频,如果仅将每个帧大小减小到 (150,150) 并提取特征,那么我就有一个大小为 (640,8192) 的特征矩阵。正如您所见,即使是一个视频的特征矩阵也非常大,除了“稀疏”之外。减少其尺寸的最佳方法是什么?
计算两对框架特征之间距离的最佳指标是什么?空间如此稀疏,甚至特征值都如此之小,所以欧式距离不是明智的选择!!
python - 通过子空间聚类降维
我正在尝试在 Python 中编写一个框架来比较不同的降维算法,并且我正在寻找一个使用 TSC、SSC、SSC-OMP 等子空间聚类算法来实现此目标的教程或实现。有一些用 Matlab 编写的与本文相关的代码,但它们对我来说理解起来有点复杂。我想知道,python 中是否有这些库或实现。
python - Python中的验证性因子分析
是否有在 python 中执行验证性因子分析的包?我发现了一些可以在 python 中执行探索性因子分析(scikitlearn、factor_analyzer 等),但我还没有找到一个可以执行 CFA 的包。
python - 如何使用在 keras 训练期间发生变化的函数
我试图在我的自动编码器中自定义我的损失函数,损失函数必须考虑另一个降维(LLE)的结果,并且我传递给函数的数据必须更新到每个计算损失函数,必须的变量改变不要改变。这是我的代码,我正在等待你的答案,谢谢。
损失函数:
自动编码器:
machine-learning - 为什么 tsne 方法使用欧几里得距离来计算高维数据中的相似性?
我尝试过其他距离度量,如切比雪夫距离或曼哈顿距离等,这些都是在 Matlab 的 tsne 中实现的。其中一些实现了与欧几里得距离度量相同的良好性能。所以我对为什么tsne总是使用欧几里得距离来计算距离有一些疑问。与其他距离度量相比,此距离度量有什么优势吗?我希望有人可以帮助我解决我的问题。提前致谢!
r - 在 R 中寻找一个函数来对行和列求和以减少矩阵
寻找一个 R 函数来求和行和列。
我有一个矩阵(6x6)。我想对[1,1]+[1,2]+[2,1]+[2,2]求和,然后对矩阵的其余部分求和,最后我想得到一个3x3矩阵,其中每个 [i,j] 作为各自的总和。
input - 将具有两个输入的数值函数映射到一个具有一个输入的函数
我在编程方面很糟糕,所以请多多包涵。我什至不确定我现在需要的概念叫什么,所以我不知道该谷歌搜索什么或在这篇文章的标题中写什么。
我的问题是,我在 Mathematica 上对一个函数进行了数值积分,并有一个函数 F,它取决于 2 个输入 X 和 Y。这些输入形成一个 2x2 网格。为了可视化我的解决方案,我需要一个 3D 图表。
现在我想将此与我的解析解(/近似)A 进行比较,我知道它仅取决于一个输入 Z,即 X/Y 的比率。为了可视化它,我只需要一个 2d 图表。
我现在的问题是,我不确定如何有效地过滤我的数值解 F 的那一部分,以便我只考虑具有不同比率 X/Y 的输出。这样,我只需使用 2d 图就可以轻松地将其与我的分析解决方案进行比较。
我希望你们中的一些人能理解我的胡言乱语。对于无法用正确的语言正确解释我需要什么,我深表歉意。如果你们中的一些人能够帮助我,我会很高兴。任何帮助表示赞赏。
r - 如何从 R 中的 Isomap [vegan] 模型中计算/提取残差方差
我目前正在尝试了解 Isomap 结果与 PCA 和 MDS 有何不同,以及它们是否更适合我的数据。为此,我开始使用 vegan 在 R 中使用 BCI 数据集及其基本示例https://www.rdocumentation.org/packages/vegan/versions/2.4-2/topics/isomap提供的 isomap 函数(代码如下) . 一些出版物将残差方差作为一个很好的衡量标准(例如“Tenenbaum 2002 年的原始论文,第 2321 页) https://web.mit.edu/cocosci/Papers/sci_reprint.pdf 然而,到目前为止我还没有从示例中的对象“ord”中提取此信息。有这个元素 ord[["eig"]],可能与它相关,但到目前为止我很困惑。非常感谢帮助!
algorithm - 使用较大数据集(>300k 数据点)的 t-SNE 的最佳困惑度
我正在使用 t-SNE 从更高维数据集(在本例中为 30 维)进行 2D 投影以进行可视化,并且我对 perplexity 超参数有疑问。
我使用 t-SNE 已经有一段时间了,以前只在小于 1000 个数据点的较小数据集上使用它,其中建议的5-50(van der Maaten 和 Hinton)的困惑度足以显示底层数据结构。
目前,我正在处理一个包含 340,000 个数据点的数据集,并认为由于困惑度会影响数据的本地与非本地表示,更多的数据点将需要比 50 高得多的困惑度(特别是如果数据不是高度隔离的)在高维空间中)。
有没有人有在具有大量数据点(> 100k)的数据集上设置最佳困惑度的经验?
我真的很想听听您的经验以及您使用哪些方法来确定最佳困惑度(或最佳困惑度范围)。
一篇有趣的文章表明,最佳困惑遵循一个简单的幂律 ( ~N^0.5 ),有兴趣知道其他人对此有何看法吗?
谢谢你的帮助