我想使用关联算法(Apriori),但我的记录有任意标签,即
...other stuff...,"tag1,tag2,tag4"
...other stuff...,"tag1,tag2,tag5"
...other stuff...,"tag1,tag3,tag5"
即,以逗号分隔的标签列表作为带引号的文本字段填充在每条记录的末尾。
当通过 Pentaho Kettle 中的 ARFF 插件运行时,此列的输出为“标称”,每个标签组合为离散值。
正确的做法是让每个标签都被视为布尔值,这样它就可以拥有独立于其他标签的独立值。
实现这一目标的最简单方法是什么?