0

我想使用关联算法(Apriori),但我的记录有任意标签,即

  ...other stuff...,"tag1,tag2,tag4"
  ...other stuff...,"tag1,tag2,tag5"
  ...other stuff...,"tag1,tag3,tag5"

即,以逗号分隔的标签列表作为带引号的文本字段填充在每条记录的末尾。

当通过 Pentaho Kettle 中的 ARFF 插件运行时,此列的输出为“标称”,每个标签组合为离散值。

正确的做法是让每个标签都被视为布尔值,这样它就可以拥有独立于其他标签的独立值。

实现这一目标的最简单方法是什么?

4

1 回答 1

0

Weka 提供了一个名为“NominalToBinary”的过滤器。显然,它的目的是将名义属性转换为二进制。 您可以在此处阅读有关此过滤器的更多信息。

它的一些相关选项是:

  1. 选择要应用过滤器的属性。

  2. 选择是否将新的二元属性视为名义属性或数字属性。

于 2013-11-02T13:26:52.650 回答