data-manipulation - Google Refine - 在单元格中提取相同的值

Question

我有一列看起来像这样的数据

["Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymor Cottages"]

它多次本质上是同一件事，但由于这些是由用户输入的，它们可能会有所不同。如果您注意到最后一个缺少 e。

我想做的是创建一个新列，其中只有唯一的名称。因此，新列将仅包含“Lymore Cottages, Lymor Cottages”。

我相信这可以通过 Google/open Refine 实现。我尝试了聚类，但这也将所有其他行聚类到具有相同细节而不是每个单元格。（无论是否有其他 20 行具有相同数据，我都需要对每一行进行此操作）

score 0 · Accepted Answer

这不是一个编程问题，但是在单元格中拆分值、删除重复项然后重新组装内容可能会起作用。

可能有一种更简单的方法可以做到这一点。粗略地说，你可以

分裂

删除重复项

重新组装

在柱子上，Transpose cells in rows into columns...
使用括号和引号重建字段

'['+ ' ' + value + ',' + ' ' + cells['Step 7 Field Name'].value + ' ' + ']'

1 回答 1