-2

我对机器学习很陌生。我有一个数据集,其中包含 f1 比赛给我的数据。用户正在玩这个游戏,并给了我这个数据集。通过机器学习,我必须处理这些数据,当用户(我知道他们是 10 岁)玩游戏时,我必须识别出谁在玩。

数据由发生在 1/10 秒频率的数据报包组成,数据包包含以下内容Time, laptime, lapdistance, totaldistance, speed, car position, traction control, last lap time, fuel, gear,..

我曾想过使用以监督方式使用的 kmeans。哪种算法可能更好?

4

2 回答 2

0

任务必须是多类分类。任何机器学习活动的第一步都是定义一个分数指标(https://machinelearningmastery.com/classification-accuracy-is-not-enough-more-performance-measures-you-can-use/)。这使您可以比较它们之间的模型并决定哪个更好。然后按照另一个答案中的建议使用随机森林或/和逻辑回归构建一个基本模型 - 它们开箱即用地表现良好。然后尝试使用功能并了解其中哪些信息更丰富。并且不要忘记可视化 - 它们为数据争吵等提供了许多提示。

于 2018-06-19T13:04:35.120 回答
-1

这是一个有点宽泛的问题,所以我会尽力而为

kmeans 是无监督算法,这意味着它会自己找到类,并且当您知道有多个类但您不知道它们到底是什么时最好使用它......将它与标记数据一起使用仅意味着您将计算新向量的距离v 到数据集中的每个向量并选择给出最小距离的一个(或使用多数票的),这不被视为机器学习

在这种情况下,当您确实拥有标签时,监督方法将产生更好的结果

我建议首先尝试随机森林逻辑回归,这些是最基本和最常用的算法,它们给出了很好的结果

如果您没有达到所需的准确度,您可以使用深度学习并构建一个神经网络,其输入层与数据包的值一样大,输出层的类数,在两者之间,您可以使用一个或多个具有各种节点的隐藏层,但这是高级方法,您最好在学习之前先积累一些机器学习领域的经验

注意:数据是一个时间序列,意味着每个司机都有自己的驾驶行为,所以数据应该被认为是大量的点,这样你就可以应用模式匹配技术,还有几个神经网络可以精确构建对于这些数据(如RNN),但这是非常先进且难以实现的

于 2018-05-22T08:18:10.300 回答