2

我有一列包含 100,000 多个字符串。我希望 Google Refine 用他们的指纹替换这些字符串。

我在 Google Refine 中选择了该列,并创建了一个 Text Facet。从该文本方面,我可以选择“集群”。这将向我显示集群,我假设这意味着具有相同指纹的字符串值,并允许我选择一个新单元格值,它默认为集群的第一个成员的名称。

我希望这个名字只是指纹。原因是,我需要对多个文件执行此操作,如果它们确实属于同一个集群,我需要它们具有相同的值。我无法连接文件,因为这会导致 Refine 处理的数据过多,尽管根据 Refine FAQ 优化了内存参数。

所以我只是在寻找一个操作,它获取列中的每个单元格,计算其指纹,并用其指纹替换列中的值。

我在 OSX 10.7 上使用 Google Refine 2.5

4

1 回答 1

2

具有数千种选择的文本方面将使您的浏览器陷入困境。如果您仅将构面用作访问集群的一种方式,则可以通过使用来获得相同的功能Edit Cells -> Cluster and Edit

要计算指纹,请使用恰当命名的指纹函数,即value.fingerprint()尽管我建议添加一个新列而不是覆盖您的原始值,以防您再次需要它们。

于 2012-11-27T18:55:57.660 回答