有没有人看到任何减少数据以减少计算量的方法?我的意思是当特征数量巨大时,可以应用 PCA 来减少维度和计算。如果我们有少量特征但有大量数据点(时间序列)怎么办。怎么能减少呢?
问问题
12 次
1 回答
0
二次抽样相当普遍。
当您进行二次抽样时,许多统计属性都得到了很好的保留。如果您有 1000000 个点,则仅从 10000 个点估计的平均值已经非常接近;并且可能在您数据的可靠性范围内。
另一种方法是使用简单而快速的方法进行聚类,例如 k-means - 以及大的 k,例如 sqrt(N)。这将使用 k 个数据点以最小二乘目标近似您的数据。(您还应该在之后使用权重,因为结果向量将反映不同数量的数据)。
最后但同样重要的是,许多归约技术(可能包括 PCA)可用于转置矩阵。然后你减少实例的数量,而不是变量的数量。但是 PCA 相当昂贵,并且在转置矩阵上,它会缩放 O(n³)。所以我宁愿考虑直接使用截断的 SVD。
但显然你的数据是时间序列。我建议寻找整合您对这里重要内容的知识的数据缩减。
于 2019-01-09T08:20:27.430 回答