问题标签 [dimension-reduction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
78 浏览

cluster-analysis - 用于降维的 SSVD +Clustering

我已经通过 mahout 运行 ssvd 来应用 LSA(潜在语义分析)。我有文本文档,每个文档都包含许多功能(从 100 到 2000 个术语)。我想在文档上使用 LSA 来获取一起出现“概念”的热门术语或短语。任何人都知道我该怎么做?实际上我应用了预处理过滤(标记化,停用词删除,词干提取,......),通过 mahout 创建 tfidf,然后运行 ​​ssvd 命令:bin/mahout ssvd -i termVectors/tfidf-vectors/part-r-00000 -no Output文件夹 -c 200 -us true -U false -V false -t 1 -ow -pca true 我在 mahout 中使用 clusterdump 来解析结果,但是 rsults 中的所有术语都以字母“a*”开头,并且不代表任何概念。有人在 ssvd 方面有经验,可以在聚类之前减少特征吗?或者知道如何使用 ssvd 在文本语料库中显示概念?

谢谢

0 投票
1 回答
73 浏览

matlab - 如何进行数据降维?

我有一组 25 张标签为“感染”的图像和 25 张标签为“正常”的图像。我正在尝试提取基于双树复小波变换的系数作为每个图像的特征。

我使用 DT-CWT ia 获取系数的代码如下:

现在,由于我还有 24 个图像要从中提取系数,所以我对每个图像都执行此块。我的最终目标是附加每次迭代中生成的所有系数向量以形成一个矩阵。但是每个图像往往会给出不同大小的系数向量。

我想知道一些降维方法,可以将每个向量减小到统一的大小,同时保留其信息。任何人都可以提出非常清晰的方法吗?

0 投票
1 回答
754 浏览

arrays - 查找二维网格之外的邻居,该网格被简化为一维数组

我有一个二维网格,其中宽度和高度始终相同。

我将它的数据源缩减为一维数组。

元素的访问是可行的,但棘手的部分来了:当仍在处理一维数组时,如何知道单元格的邻居是否在网格之外?

例如,[5] 的右上邻居不在网格中,但使用计算的偏移索引,我会得到 [3]。

有这方面经验的人吗?

0 投票
1 回答
1282 浏览

scikit-learn - 为什么 scikit-learn truncatedSVD 默认使用“随机”算法?

我使用 truncatedSVD 和 30000 x 40000 大小的术语文档矩阵来将维度减少到 3000 维度,当使用“随机化”时,方差比约为 0.5(n_iter=10),当使用“arpack”时,方差比约为 0.9

“随机”算法的方差比低于“arpack”之一。

那么为什么 scikit-learn truncatedSVD 默认使用“随机”算法呢?

0 投票
1 回答
321 浏览

algorithm - Way to mapping N dimensional vector to a point

I'm facing a problem with mapping, I need mapping N dimensional vectors to one group/point, like [0,1....N-1] to 1 | [1,2....N-1] to 2.

The problem is that, right now I have one function where receive a dimensional vector and the return a point, that point is the result, I want avoid call the function, I already have all results stored in a table, the problem is, I'll remove the function and now I need mapping the new entry to a existing point.

There is some way to mapping the entry to a correct point?

There is some algorithm to mapping to the correct point?

Some help or advice?

I already saw this topic, but I'm not sure whether Hilbert Curve is the solution, I need study more about it. Mapping N-dimensional value to a point on Hilbert curve

I'll be grateful.

0 投票
1 回答
140 浏览

python - 使用相关系数 (Pearson) 进行降维 [Python]

我正在利用这个答案在形状为(29421、11001)[即 29,421 行和 11,001 列]的矩阵(ndarray)中找到大于给定限制 f 的相关系数。

我已按如下方式调整了代码(随机位选择要删除的两列之一;此外,与链接答案对应的行后面有“###”):

问题:我得到了数以千计的大于 1 的相关系数......据我了解,这不应该发生吗?

有什么建议或想法吗?

0 投票
1 回答
1120 浏览

python - 正交匹配追踪

我在 python 中运行正交匹配追踪算法并得到以下警告:

RuntimeWarning:由于字典中的线性相关性,正交匹配追踪过早结束。可能未达到要求的精度。

我应该如何删除字典中的线性依赖?

0 投票
1 回答
477 浏览

algorithm - 如何使用 QR-Decomposition 来减少数据集的维度?

A是一个维度为 m×n 的矩阵,表示原始数据集。

QR分解产生:[Q, R] = qr (A)

  • R相同维度的上三角矩阵A

  • 酉矩阵Q

以便A = Q*R

如果[m, n] = size (A),那么

Qm-by-m

Rm-by-n

如何使用 QR-Decomposition 来减少维度(减少列数或特征数)A

0 投票
1 回答
38 浏览

machine-learning - 在不应用 PCA 的情况下使用功能

假设数据集中有 8 个特征。我使用 PCA 发现 99% 的信息在前 3 个特征中,使用解释方差比的累积和。那为什么我需要使用 PCA 拟合和转换这 3 个特征才能使用它们来训练我的神经网络?为什么我不能按原样使用这三个功能?

0 投票
0 回答
132 浏览

machine-learning - 使用 PCA 降维

假设我有一个 $n\times p$ 数据矩阵 $X$, $p>>n$。为了降低数据的维度,我使用如下的主成分分析:我执行 SVD 并找到矩阵 U ($n \times r$) 和 V ($r \times p$) 使得 $X=UDV$,其中$D$ 是对角矩阵。现在我使用矩阵$V$ 减少$X$ 的维度,即使用PC 分数$Z=XV^{\prime}$。我的问题是在这种情况下,像“受限等距”这样的属性是否适用于投影数据点。特别是,如果我考虑 $X$ 的行是从某个分布独立生成的,那么以下成立的最尖锐的界限($m$,$M$)是什么

$$ 米 \| x \|^2 \leq \| Vx \|^2 \leq M \| x \|^2 ?$$