knime - 转换频率较低的值

Question

假设我通过“文件阅读器”节点读取的 csv 具有以下列：

id, name, city, income

阅读后，我注意到“城市”列包含大量唯一值。我想要：

例子：

id, name, city, income
1, Person 1, New York, 100.000 
2, Person 2, Toronto, 90.000
3, Person 3, New York, 50.000
4, Person 4, Seattle, 60.000

选择 k 为 1，我想生成下表：

id, name, city, income
1, Person 1, New York, 100.000 
2, Person 2, Other, 90.000
3, Person 3, New York, 50.000
4, Person 4, Other, 60.000

发生这种情况是因为“纽约”是原始表中“城市”最常见的“1”值。

你知道我怎么能用 Knime 做到这一点吗？

非常感谢！

score 2 · Accepted Answer

您可以使用 CSV Reader 读取数据。使用 Statistics 和 Row Filter 节点，您可以找到 k 个最频繁的值。从中，您可以使用 GroupBy 创建一个集合单元。使用该集合值，您可以使用具有类似规则集的规则引擎：

$city$ IN $most frequent cities$ => $city$
TRUE => "Other"

1 回答 1