问题标签 [supervised-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 监督学习和无监督学习有什么区别?
在人工智能和机器学习方面,有监督学习和无监督学习有什么区别?你能用一个例子提供一个基本的、简单的解释吗?
machine-learning - 机器学习 - 分类器评估
一般来说,当您在训练后获得的监督学习分类器模型的准确性不符合您的预期时,您会遵循哪些步骤?示例步骤:特征重构、去噪、降维、过拟合等。哪些测试(在您获得分类器的 % 准确度后执行)使您得出结论(例如有很多噪声,因此准确度较低),从而使您执行操作(删除嘈杂的词/特征等)。 )? 执行完操作后,您重新训练分类器,然后循环继续,直到您获得良好的结果。
我已经阅读了关于 SO - Feature Selection and Reduction for Text Classification的这个问题,它有一个很好的接受的答案,但它没有谈论让你得出结论的步骤(如上所述)
machine-learning - 噪声数据的学习曲线
我正在对小文本进行监督分类,数据非常嘈杂。我绘制了一条学习曲线:x 轴是 # 个实例。y轴是F-measure的值。曲线正在下降:我使用的实例越多,F-measure 得分越低。它是典型的嘈杂数据吗?或者这种行为还有其他原因?
machine-learning - 仅使用一个特征来构建学习模型是否有意义?
为了提高 adaboost 分类器(用于图像分类)的准确性,我正在使用遗传编程来推导新的统计度量。每次生成新特征时,我都会通过训练 adaboost 分类器并测试其性能来评估其适应度。但我想知道该程序是否正确;我的意思是使用单个特征来训练学习模型。
matlab - MATLAB 中的 TreeBagger(随机森林)参数
当我将 MATLAB(TreeBagger
类)的 Random Forest 实现与 OpenCV 实现(Random Trees 类)进行比较时,我发现后者中存在的几个参数在前者中不存在。
感兴趣的参数是树的最大深度 (max_depth) 和 max_categories。
有谁知道如何在 MATLAB 中访问这些参数?
function - 使用机器学习逼近 32 位函数的最佳技术?
我想知道哪种机器学习技术可以从一组观察中逼近一个采用 32 位数字并返回另一个 32 位数字的函数。
谢谢!
r - 随机森林:如果测试集也被标记,有什么不同吗?
我能找到的所有使用随机森林进行预测的例子都已经有了实际的答案(即测试集有标签)。当你没有那个专栏时你会怎么做?
例如本教程使用虹膜数据:http ://mkseo.pe.kr/stats/?p=220
如果我们真的这样做,测试数据集将有列 [1,4] 而不是第 5 列。如果您尝试在没有第 5 列的情况下运行它,则会引发一个错误,即数据帧的大小不同,显然他们不是。
当您还没有一列答案时,您如何进行预测?
使用上述链接的摘录编辑澄清:
准备训练和测试集。
测试数据框有一个完整的物种列。我试图根据我从训练集中生长的森林来预测物种。所以我所在的位置是在跑步之后:
如果我出去收集一堆植物测量值并想根据我从训练数据中建立的树模型了解物种,我现在所处的位置。那么,如何根据测试数据框中的剩余数据和使用训练数据框种植的森林来预测我刚刚删除的 Species 列?
statistics - 预测建模的决策树
我有一个提供辐射的卫星数据,我用它来计算通量(使用表面和云信息)。现在使用回归方法,我可以有一个与辐射和通量相关的数学模型,并且可以用于预测新辐射值的通量,而无需其他新输入。
是否可以使用决策树或回归树来做同样的事情......?在回归中,存在连接因变量和自变量的数学方程。使用决策树,您如何开发这样的模型?
machine-learning - 如何参加机器学习编程竞赛
许多机器学习比赛都在 Kaggle 举行,其中给出了一个训练集和一组特征以及一个测试集,其输出标签将通过使用训练集来决定。
很明显,这里的监督学习算法,如决策树、SVM 等都是适用的。我的问题是,我应该如何开始处理这些问题,我的意思是是否从决策树或 SVM 或其他算法开始,或者是否有任何其他方法,即我将如何决定?
machine-learning - 如何应对频繁上课?
我正在 Weka 中进行分类任务,并遇到了一个问题,即我要预测的类有一个非常频繁的值(大约 85%)。这导致许多学习算法只是为新数据集预测此类的这个频繁值。
我该如何处理这个问题?这是否只是意味着我没有找到能够很好地预测更好的东西的功能?或者我可以做些什么来解决这个问题?
我想这是一个很常见的问题,但我无法在这里找到解决方案。