machine-learning - 使用 Weka 预测 Google Play 评分

Question

我是 Weka 3.7.9 的新手。我有一个 arff 文件，其中包含这些属性、类和数据： http: //pastebin.com/s8hivv0U

此文件代表 Android 项目。所以，1-9。属性是不同类型的指标：

lloc - 逻辑代码行
nid - ID 数
nle - 嵌套级别
nel - 元素数
nip - 输入元素的数量
activites - 来自 AndroidManifest 的活动数量
inside-permissions - 来自 AndroidManifest 的内部权限数
outside-permissions - 来自 AndroidManifest 的外部权限数
all-permissions - 来自 AndroidManifest 的权限数
{4、4.6、3.8、2.6 类。5、3.2、3.6、4.2、4.1}

最后一个是包含 Google Play 项目评级的类。

所以每一行都是Andorid项目。（当然，原始的 *.arff 文件包含更多的项目......）

我想用学习算法分析数据。预测变量从 1 到 9。我想确定哪些预测变量对 Google Play 评分的影响最大。

我怎样才能做到这一点？最好的方法是什么？如果可能的话，我想请你向我解释一下。

在此先感谢，彼得

score 0 · Accepted Answer

班级类型

首先，如果您希望输出是连续的，我建议您将class类型更改为。numeric否则，我建议将类标签类型保留为nominal（就像您现在拥有的那样），但将您的评级更改为{1, 2, 3, 4, 5}.

如果您更改为数字输出（例如，您可以给出 4.5 星的预测），那么您将需要使用能够进行数字类的分类器。

使用 Weka

我建议查看文档以了解有关使用 Weka 的更多信息，可能通过阅读一些教程。例如，双击您的 ARFF 文件后，您应该在Classify选项卡中完成大部分工作。选择一个分类器，然后选择Start。

分类器

回归

回归，特别是线性回归很好，因为它很容易解释，因为它只是为每个属性分配一个权重，并使用这些权重的乘法和加法来给出输出。

我使用了您的示例文件并LinearRegression用.3.96670.4722

不满意，接下来我试SimpleLinearRegression了，它给出了一个模型 -0.02 * activites + 4.13，并且会给出一个的平均绝对误差0.472。

SMOreg给出以下模型

weights:
 +       0.1147 * (normalized) lloc
 -       0.0404 * (normalized) nid
 -       0.1662 * (normalized) nle
 -       0.0647 * (normalized) nel
 +       0.3385 * (normalized) nip
 -       0.1352 * (normalized) activites
 -       0.019  * (normalized) inside-permissions
 -       0.0464 * (normalized) outside-permissions
 +       0.1602 * (normalized) all-permissions
 +       0.5921

并且平均绝对误差为0.3859. 但在这一点上，我认为数据点如此之少，你的数据就过拟合了。

决策树

该DecisionStump算法输出该模型的平均绝对误差为0.3424，但也可能过度拟合。

inside-permissions <= 1.5 : 2.6
inside-permissions > 1.5 : 4.090909090909091
inside-permissions is missing : 3.966666666666667

machine-learning - 使用 Weka 预测 Google Play 评分

1 回答 1

班级类型

使用 Weka

分类器

回归

最近的邻居

决策树

更多数据

machine-learning - 使用 Weka 预测 Google Play 评分

1 回答 1

班级类型

使用 Weka

分类器

回归

最近的邻居

决策树

更多数据

Related

Reference