我有 20 个属性集,其中很少是字符串,例如美国各州的代码、订阅计划的名称等。我们如何处理 WEKA 中的字符串属性以构建决策树?
我阅读了有关 stringtowordvector 转换器的信息,但每个属性的字符串本身只是一个单词。
我有 20 个属性集,其中很少是字符串,例如美国各州的代码、订阅计划的名称等。我们如何处理 WEKA 中的字符串属性以构建决策树?
我阅读了有关 stringtowordvector 转换器的信息,但每个属性的字符串本身只是一个单词。
您可能已经明白了——您必须将此类“字符串属性”(实际的字符串属性在 WEKA 中是其他内容)声明为名义属性,即,您必须在大括号中声明它们可以在 ARFF 标头中具有的所有值。
只需在您的 ARFF 文件中声明此模式之后的属性:
@attribute <att_name> string
请注意,因为Strings
它们内部存储在字符串表中,并由它们在该表中的地址表示。因此,包含相同字符的两个字符串将具有相同的值。
资料来源(书籍):数据挖掘:实用机器学习工具和技术第 3 版