0

我有 20 个属性集,其中很少是字符串,例如美国各州的代码、订阅计划的名称等。我们如何处理 WEKA 中的字符串属性以构建决策树?

我阅读了有关 stringtowordvector 转换器的信息,但每个属性的字符串本身只是一个单词。

4

2 回答 2

1

您可能已经明白了——您必须将此类“字符串属性”(实际的字符串属性在 WEKA 中是其他内容)声明为名义属性,即,您必须在大括号中声明它们可以在 ARFF 标头中具有的所有值。

于 2013-01-23T16:17:43.663 回答
0

只需在您的 ARFF 文件中声明此模式之后的属性:

@attribute <att_name> string

请注意,因为Strings它们内部存储在字符串表中,并由它们在该表中的地址表示。因此,包含相同字符的两个字符串将具有相同的值。

资料来源(书籍):数据挖掘:实用机器学习工具和技术第 3 版

于 2013-01-23T16:26:24.710 回答