0

我有一列看起来像这样的数据

["Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymore Cottages", "Lymor Cottages"]

它多次本质上是同一件事,但由于这些是由用户输入的,它们可能会有所不同。如果您注意到最后一个缺少 e。

我想做的是创建一个新列,其中只有唯一的名称。因此,新列将仅包含“Lymore Cottages, Lymor Cottages”。

我相信这可以通过 Google/open Refine 实现。我尝试了聚类,但这也将所有其他行聚类到具有相同细节而不是每个单元格。(无论是否有其他 20 行具有相同数据,我都需要对每一行进行此操作)

4

1 回答 1

0

这不是一个编程问题,但是在单元格中拆分值、删除重复项然后重新组装内容可能会起作用。

可能有一种更简单的方法可以做到这一点。粗略地说,你可以

分裂

  1. Split multi-valued cells...在柱子上

  2. 删除括号和引号

    value.replace('[', '').replace(']','').replace('"', '')

删除重复项

  1. 接下来,Sort...AZ 和Reorder rows permanently

  2. Blank down在柱子上

  3. 调用Facet by blank并选择True

  4. Remove all matching rowsAll>Edit rows

重新组装

  1. 在柱子上,Transpose cells in rows into columns...

  2. 使用括号和引号重建字段

    '['+ ' ' + value + ',' + ' ' + cells['Step 7 Field Name'].value + ' ' + ']'

于 2015-08-24T23:50:52.327 回答