我有一列包含 100,000 多个字符串。我希望 Google Refine 用他们的指纹替换这些字符串。
我在 Google Refine 中选择了该列,并创建了一个 Text Facet。从该文本方面,我可以选择“集群”。这将向我显示集群,我假设这意味着具有相同指纹的字符串值,并允许我选择一个新单元格值,它默认为集群的第一个成员的名称。
我希望这个名字只是指纹。原因是,我需要对多个文件执行此操作,如果它们确实属于同一个集群,我需要它们具有相同的值。我无法连接文件,因为这会导致 Refine 处理的数据过多,尽管根据 Refine FAQ 优化了内存参数。
所以我只是在寻找一个操作,它获取列中的每个单元格,计算其指纹,并用其指纹替换列中的值。
我在 OSX 10.7 上使用 Google Refine 2.5