python - Python 中的机器学习 - 获得标签的最佳特征组合

Question

我的问题如下：

我对 Python 中的 ML 有一点了解（使用 NLTK），到目前为止它运行良好。给定某些特征，我可以得到预测。但我想知道，有没有办法，显示实现标签的最佳功能？我的意思与我迄今为止所做的完全相反（在所有情况下，并为此获得标签）

我试图通过一个例子来说明我的问题：

假设我有一个包含足球游戏的数据库。
标签是例如'赢'、'输'、'平局'。
功能包括“风速”、“是否下雨”、“白天”、“犯规”等。

现在我想知道：球队在什么情况下会取得胜利、失败或平局？基本上我想找回这样的东西：
获胜的最佳条件：风速= 0，无雨，下午，犯规= 0等
最佳失败条件：...

有没有办法做到这一点？

score 1 · Accepted Answer

_{我的绘画技巧不是最好的！}
我所知道的只是理论，所以你必须寻找代码..

如果您只有 1 种情况（最适合“x”情况），图表会变成类似（它不会是 2-D，而是像这样）：
3个点
绿色（赢）、橙色（平局）、红色（输）

现在如果你想预测球队是赢、输还是平，你有（至少）2个模型来分类：

线性回归，分隔符是连接 2 个点的直线的垂直平分线：
K-nearest-neighbours：只需计算与所有点的距离，并将该点归类为与最近点相同。

因此，例如，如果您有一个新数据，并且必须对其进行分类，则方法如下：

我们有一个新点，具有某些属性..
我们通过查看/计算点进入线的哪一侧（或查看它与我们的基准情况有多远来对其进行分类......

注意：您必须对每个因素给予一定的权重，以获得更高的准确性。

score 0 · Accepted Answer

您可以计算每个特征的代表性，以通过特征加权来分离类别。文本分类中最常用的特征选择（以及特征加权）方法是 chi^2。该度量将告诉您哪些功能更好。根据此信息，您可以分析最适合每种情况的特定值。我希望这有帮助。

问候，

score 0 · Accepted Answer

不确定您是否必须在 python 中执行此操作，但如果没有，我建议您使用 Weka。如果您不熟悉它，这里是一组教程的链接：https ://www.youtube.com/watch?v=gd5HwYYOz2U

基本上，您只需要编写一个程序来提取您的特征和标签，然后输出一个 .arff 文件。生成 .arff 文件后，您可以将其提供给 Weka 并在其上运行无数不同的分类器，以找出最适合您的数据的模型。如有必要，您可以对该模型进行编程以对您的数据进行操作。Weka 有很多方法可以分析您的结果并以图形方式显示所述结果。这真是太棒了。

python - Python 中的机器学习 - 获得标签的最佳特征组合

3 回答 3

Related

Reference