0

假设我通过“文件阅读器”节点读取的 csv 具有以下列:

id, name, city, income

阅读后,我注意到“城市”列包含大量唯一值。我想要:

  1. 知道哪些值是“城市”最常见的“k”值
  2. 修改那些不是“k”最频繁的内容以包含“其他”之类的内容

例子:

id, name, city, income
1, Person 1, New York, 100.000 
2, Person 2, Toronto, 90.000
3, Person 3, New York, 50.000
4, Person 4, Seattle, 60.000

选择 k 为 1,我想生成下表:

id, name, city, income
1, Person 1, New York, 100.000 
2, Person 2, Other, 90.000
3, Person 3, New York, 50.000
4, Person 4, Other, 60.000

发生这种情况是因为“纽约”是原始表中“城市”最常见的“1”值。

你知道我怎么能用 Knime 做到这一点吗?

非常感谢!

4

1 回答 1

2

您可以使用 CSV Reader 读取数据。使用 Statistics 和 Row Filter 节点,您可以找到 k 个最频繁的值。从中,您可以使用 GroupBy 创建一个集合单元。使用该集合值,您可以使用具有类似规则集的规则引擎:

$city$ IN $most frequent cities$ => $city$
TRUE => "Other"
于 2016-12-19T05:41:03.963 回答