我一直在做一些事情,试图通过使用我自己的数据集来找出专栏的作者。
我打算使用mlpy python 库。它有很好的文档,(大约 100 页 pdf)。我也愿意接受其他图书馆的建议。
问题是,我迷失在数据挖掘和机器学习的概念中。有太多的工作,太多的算法和概念。
我正在询问方向,我应该学习哪些算法/概念,并搜索我的具体问题。
到目前为止,我已经构建了一个类似这样的数据集。
| author | feature x | feature y | feature z | some more features |
|--------+-----------+-----------+-----------+--------------------|
| A | 2 | 4 | 6 | .. |
| A | 1 | 1 | 5 | .. |
| B | 12 | 15 | 9 | .. |
| B | 13 | 13 | 13 | .. |
现在,我将获得一个新列并对其进行解析,之后我将拥有该列的所有功能,我的目标是找出该列的作者是谁。
由于我不是 ML 专家,所以我只能考虑获取所有行上的特征之间的距离并选择最接近的那个。但我很确定这不是我应该走的路。
我会很感激任何方向,链接,阅读等。