假设我通过“文件阅读器”节点读取的 csv 具有以下列:
id, name, city, income
阅读后,我注意到“城市”列包含大量唯一值。我想要:
- 知道哪些值是“城市”最常见的“k”值
- 修改那些不是“k”最频繁的内容以包含“其他”之类的内容
例子:
id, name, city, income
1, Person 1, New York, 100.000
2, Person 2, Toronto, 90.000
3, Person 3, New York, 50.000
4, Person 4, Seattle, 60.000
选择 k 为 1,我想生成下表:
id, name, city, income
1, Person 1, New York, 100.000
2, Person 2, Other, 90.000
3, Person 3, New York, 50.000
4, Person 4, Other, 60.000
发生这种情况是因为“纽约”是原始表中“城市”最常见的“1”值。
你知道我怎么能用 Knime 做到这一点吗?
非常感谢!