问题标签 [supervised-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
121 浏览

machine-learning - 对于给定的数据样本,什么是合适的学习技术

我在matlab中工作。

我在时间步长有两个不相关变量的数据样本。256它们在 Y 轴上的值和在 X 轴上的时间步长的图如下。第一个变量的典型图Pos在此处输入图像描述

第二个变量的典型图Vel在此处输入图像描述

现在我需要在下一个10时间步预测这些变量的值。为了检查各种机器学习技术,我在第一个246时间步取变量值,预测下一个10时间步,然后通过计算均方误差将它们与实际值进行比较ms_error

我已经使用time-series(NAR) ,linear regression,fuzzy input systems,neural networks. 但这些都不能给出ms_error小于 2 的值。有人可以建议一种学习算法来预测像这两个数据样本的未来值。

0 投票
1 回答
32 浏览

svm - 分类中的相似检测(监督学习)

如果我有 3 个 A、B 和 C 类用于训练,并且 SVM 预测我的测试样本属于 A 类(分类问题),那么我怎么知道/我可以使用哪种技术在剩下的两个类中找到它,类更接近结果?喜欢 A 最相似,B 非常相似,C 不相似?
非常感谢。

0 投票
2 回答
306 浏览

xml - 当数据集尚未完全编码时,如何将数据从 CAT 导出到 R?

我使用了 Solomon Messing 的教程(见下面的链接),了解如何将数据从 CAT 导出到 R 并取得了巨大成功。然而,当只有 3/4 的编码人员完成了对数据集的编码时,我遇到了问题。即使我删除了所有编码人员尚未编码的那些文档,R 似乎也无法解析 XML 文件。我的猜测是,来自 CAT 的 XML 文件是为初始数量的文档和编码器设置的,因此当文档和编码器被删除时,R 脚本不再兼容。有没有办法修改 XML 文件,甚至删除某些编码人员的编码?控制台输出如下所示:(当所有编码人员都完成编码时,我对奇数字符没有任何问题。)

doc <- xmlInternalTreeParse(doc, asText=T)

xmlParseCharRef:无效的 xmlChar 值 0

xmlParseCharRef:无效的 xmlChar 值 0

xmlParseCharRef:无效的 xmlChar 值 0

xmlParseCharRef:无效的 xmlChar 值 0

错误:1:xmlParseCharRef:无效的 xmlChar 值 0

2: xmlParseCharRef: 无效的 xmlChar 值 0

3: xmlParseCharRef: 无效的 xmlChar 值 0

4: xmlParseCharRef: 无效的 xmlChar 值 0

5: xmlParseCharRef: 无效的 xmlChar 值 0

6: xmlParseCharRef: 无效的 xmlChar 值 0

http://solomonmessing.wordpress.com/2013/02/04/cat-r-for-content-analysislabels-for-text-mining/

0 投票
1 回答
2987 浏览

r - 如何计算 R 中的决策树规则

我使用 RPart 来构建决策树。没有问题,我正在这样做。但是,我需要了解(或计算)树被分割了多少次?我的意思是,树有多少条规则(if-else 语句)?例如:

有3条规则。

当我写摘要(模型)时:

摘要(model_dt)

如果有人帮助我理解它,我将不胜感激

真诚的埃雷

0 投票
1 回答
85 浏览

machine-learning - 比较神经网络和贝叶斯网络的效率

像标题一样,谁能告诉我在分类或检测和识别问题上哪个更好的 ANN 和贝叶斯?在雷达跟踪系统中,目标有速度、方向、高度……可以应用?在图像处理系统中,哪些可以应用?

0 投票
2 回答
198 浏览

machine-learning - 如何衡量 k 最近邻分类器给出的结果的可靠性?

为了解释,假设我正在检查 9 个最近的邻居并对手写数字数据集进行分类。测试集中的第一个实例有五个最近的“4”类邻居和四个“9”类的邻居。第二个测试实例有八个“4”类邻居和一个“9”类邻居。显然,第二个测试实例被归类为“4”,比第一个测试实例具有更大的确定性。如何用函数表达这一点,以及如何考虑距离?

我也想将这个实现到其他分类器。对于任何类型的分类器,是否有机会使用具有此功能的 C/C++ 库?

0 投票
1 回答
3507 浏览

matlab - How to use KNN to classify data in MATLAB?

I'm having problems in understanding how K-NN classification works in MATLAB.´ Here's the problem, I have a large dataset (65 features for over 1500 subjects) and its respective classes' label (0 or 1). According to what's been explained to me, I have to divide the data into training, test and validation subsets to perform supervised training on the data, and classify it via K-NN. First of all, what's the best ratio to divide the 3 subgroups (1/3 of the size of the dataset each?).

I've looked into ClassificationKNN/fitcknn functions, as well as the crossval function (idealy to divide data), but I'm really not sure how to use them.

To sum up, I wanted to - divide data into 3 groups - "train" the KNN (I know it's not a method that requires training, but the equivalent to training) with the training subset - classify the test subset and get it's classification error/performance - what's the point of having a validation test?

I hope you can help me, thank you in advance

EDIT: I think I was able to do it, but, if that's not asking too much, could you see if I missed something? This is my code, for a random case:

Thank you very much for all your help

0 投票
0 回答
934 浏览

python - 使用监督机器学习的文本匿名化

我有很多包含公司和个人姓名的文本文件。我已对齐文本文档,其中上述内容已手动匿名(名称替换为单个唯一字符)。

我想使用这个语料库来训练一个系统来对看不见的文档执行自动匿名化——这只是用一个字符替换单词。首要问题是识别要匿名的单词,次要问题是用唯一字符替换单词。我可以解决次要问题。

Python 是首选,我认为 sklearn 必须包含必要的工具。

我该怎么办?有很多关于监督学习的 stackoverflow 文章,但我不确定它们是否符合我的情况。我怀疑这是一个相当简单的问题要解决,我不一定要寻找一个完整的解决方案,但一些起始指针会很好。此外,非常感谢任何关于哪些算法会更好地工作的见解。

0 投票
1 回答
624 浏览

android - 存储和比较 android 传感器(加速度计)数据集以匹配模式

我正在开发 android 应用程序,它将学习并评估激进的驾驶行为,即急转弯、突然刹车等......
因为我正在尝试制作学习算法。我现在的方法是在错误驱动时获取传感器数据,并制作多个传感器的数据集,即加速度计、陀螺仪和磁力计。
一旦存储了多个数据集(对于每个传感器),应用程序将继续将数据集与传感器的当前值进行比较。如果模式匹配,则发生相同的操作(错误)。
是否有任何 api 或解决方案来比较和匹配传感器数据的模式,因为目前我正在使用数组并且正在比较多个不起作用的值,我知道。
或者是否有其他您认为更好的解决方案,请让我知道。
这将是一个很大的帮助,因为我被困在这里几个星期:(

0 投票
1 回答
83 浏览

machine-learning - 为此,我需要哪个 AI 领域?

有一个包含大量项目(~500,000)的数据库,每个项目都有一定数量的属性(~20),由整数标识。有大约 50,000 种不同的属性。

我想编写一个程序,根据项目的属性找到项目之间的最佳匹配。有一个指标可以定义匹配的好坏,但仅在匹配完成后的一段时间内。仅仅因为两个项目共享相同的属性并不意味着它会是一个很好的匹配。该程序必须从一组已经进行的匹配中学习(对于每个匹配项的度量是已知的),哪些属性组可以组合在一起并进行最佳匹配。

在学习过程之后,它应该能够为新项目进行最佳匹配,这些新项目部分具有与从中学习的项目相同的属性。此外,一旦指标可用以改进自身,程序就应该从它所做的每一次匹配中学习。

我该如何接受?我不确定这属于 AI 的哪个领域(因此得名),但我认为程序会开始按项目的属性对项目进行分类,因为这就是我手动执行的方式......我应该使用什么算法肯定看进去了?

编辑:我想到了 hopfield 网络,其中一个项目的部分或全部属性会将其引导到一个类别,但我不确定这是否适用于这个规模。