我是机器学习的新手。我正在尝试使用 MLlib 的决策树。
有人可以帮助我如何为多类别分类的 mllib 决策树准备输入文件。
我的 csv 文件的格式为
标签,文字
label_1, text of label 1
label_2, text of label 2
label_3, text of label 3
mllib 所需的输入格式是 libsvm 或标记点。
文件格式中不允许有文本。问题是如何将文本映射到 mllib 所需的基于数字数据的文件格式,然后解释结果。我正在使用 java 来实现。
问候