问题标签 [online-machine-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 为更新数据训练神经网络
我有一个已经在一些数据集上训练过的神经网络。假设数据集最初有 10k 个数据点,现在又添加了 100 个数据点。我的神经网络有没有办法在不从头开始训练的情况下学习整个(更新的)数据集?此外,灾难性干扰是否适用于此?我知道当 NN 试图学习“新信息”时,灾难性干扰是适用的,但我不确定“更新(由于插入)信息”是否算作“新信息”。
python - 如何在深度学习中向现有分类器添加新类?
我训练了一个深度学习模型,将给定的图像分为三类。现在我想在我的模型中再添加一个类。我试图查看“在线学习”,但它似乎是针对现有课程的新数据进行训练。我是否需要在所有四个课程上再次训练我的整个模型,或者有什么办法可以在新课程上训练我的模型?
machine-learning - 不断发展的环境中在线集群的流规范化
TL;DR:鉴于整个数据集不可用并且您正在处理不断变化的环境的集群,如何规范化流数据
你好!我目前正在研究非平稳数据流的动态聚类。我需要对数据进行归一化, 因为所有特征在最终聚类中都应该有相同的影响,但我不知道该怎么做......
我需要应用标准规范化。我最初的方法是:
- 用初始数据点填充缓冲区
- 使用这些数据点来获得平均值和标准差
- 使用这些措施来标准化当前数据点
- 将那些标准化的点一一发送到算法
- 使用之前的措施将传入的数据点标准化一段时间
- 每隔一段时间再计算一次均值和标准差
- 用新措施表示当前的微集群质心(使用旧的措施,返回并再次标准化应该不是问题)
- 使用新措施将传入数据点标准化一段时间
- 等等 ....
问题是标准化数据不应该涉及聚类算法的作用......我的意思是,你无法告诉聚类算法'好的,你到目前为止所拥有的微集群需要用这个新的平均值进行标准化和stdev' ...我的意思是,我开发了一个算法,我可以做到这一点,但我也在使用现有的算法(clustream和denstream),我觉得修改它们以便能够做到这一点是不对的...... ..
有任何想法吗?
TIA
python - 高斯过程回归增量学习
我想更多地了解高斯过程回归:我在这里使用 scikit-learn 实现,我想拟合单点而不是拟合一整套点。但是得到的 alpha 系数应该保持不变,例如
应该是一样的
但是当访问gpr2.alpha_
and时gpr.alpha_
,它们是不一样的。这是为什么?
事实上,我正在从事一个出现新数据点的项目。我不想附加 x、y 数组并再次适合整个数据集,因为它非常耗时。让 x 的大小为 n,那么我有:
n+(n-1)+(n-2)+...+1 € O(n^2) 配件
当考虑到拟合本身是二次的(如果我错了,请纠正我),运行时间复杂度应该在 O(n^3) 中。如果我对 n 个点进行一次拟合,那将是更理想的:
1+1+...+1 = n € O(n)
python - 朴素贝叶斯分类器动态训练
是否有可能(以及如何)动态训练 sklearn MultinomialNB 分类器?每次我在其中输入电子邮件时,我都想训练(更新)我的垃圾邮件分类器。
我想要这个(不起作用):
得到与此类似的结果(工作正常):
python - 盲位在线预测
新来的。我目前正在研究我的硕士论文,其中包括开发一组百叶窗/百叶窗,这些百叶窗/百叶窗可以根据用户的习惯和喜好来预测用户的行为并自动设置位置。我正在使用在线学习来解决我的问题,特别是图书馆奶油(python)。问题是我无法获得足够好的结果,MAE 大约为 24,这太过分了。你们对如何解决这样的问题有任何经验/想法吗?我用这样的模型得到这些数字:
并具有以下特点:
- 时间戳
- 年
- 四分之一
- 月
- 一年中的一周
- 一年中的一天
- 月日
- 星期几
- 小时
- 分钟
- 假期
- 温度
- 湿度
- 辐射
定位标签
python - 顺序 k 均值
我可以使用以前Kmeans拟合中的 cluster_center 坐标作为 init 参数,以便在新数据到达时顺序更新 cluster_center 坐标吗?这种方法有什么缺点吗?
更新的 Scikit 在线版本学习 K-means:
python - 如何在 Scikit SGDClassifier 中使用 partial_fit 增加迭代次数以优化每一步的成本函数?
当在 Scikit SGDClassifier 使用 partial_fit 时,成本函数收敛的迭代次数等于 1,如描述中所述:
对给定样本执行一个时期的随机梯度下降。
在内部,此方法使用 max_iter = 1。因此,不能保证调用一次后达到成本函数的最小值。客观收敛、提前停止等事项应由用户自行处理。
如何增加 max_iter 以使我的成本函数得到适当优化,而不仅仅是一次迭代?或者与 scikit- 描述相关,我如何使用 partial_fit 处理我的分类器的“目标收敛”和“提前停止”?
python-3.x - Incremental learning in keras
I am looking for a keras equivalent of scikit-learn's partial_fit
: https://scikit-learn.org/0.15/modules/scaling_strategies.html#incremental-learning for incremental/online learning.
I finally found the train_on_batch
method but I can't find an example that shows how to properly implement it in a for loop for a dataset that looks like this :
Note : this is a multi-output regression
my code so far:
I get this Error: ValueError: Input 0 of layer sequential_28 is incompatible with the layer: expected axis -1 of input shape to have value 3 but received input with shape [3, 1]
python - 人脸识别中的增量学习
我正在尝试为人脸识别应用程序实现增量/在线学习。我已经在数据集上训练了一个模型,它工作得很好,但是,我需要随着时间的推移捕获新的面孔(类)并将它们添加到现有的数据集中。有什么方法可以不用从头开始重新训练,就可以用新的类训练模型吗?
到目前为止,我还没有找到任何丰富的资源,如果有人能在某个地方指出我,我真的很感激。