-1

我做了一些搜索,在没有找到太多东西之后,我想我会发布这个问题。实际上,因为我没有找到太多,我认为这可能是答案的一个指标,但无论如何......这里是:

有没有人有任何使用 R 处理邮政邮件文件的经验......如果是这样......你使用什么包?

我意识到 R 可能不是完成这项任务的最佳工具,但有时你必须使用手头的工具,有时你必须在工作中做“额外”的事情才能保持工作......所以请不要也抨击我这个问题很难。

基本上我在看合并清除、dup/elim 之类的东西。我已经使用了 compare() 和 merge() 命令。我想在比较中加入一些等价物,例如

ST=St=St.=街道

BLVD=Blvd=Blvd.=林荫大道等...

我主要想知道是否已经为这种数据处理开发了包,所以我没有重新发明轮子。

4

1 回答 1

2

我建议以下基本工作流程:

(1) 读入你的数据。根据您的问题,我不知道它是什么样的,所以我认为这对您来说很容易。

(2) 混合使用gsubtoupper和其他字符串操作工具将所有数据转换为相同的格式。即,让所有地址使用 ST 而不是 St 或 street 等。

(3)merge将所有内容放入一个数据框中。

(4) 使用unique和/或sort/order来清理列表并删除重复项。

(5) 输出为您想要的任何格式。同样,从问题中不清楚,所以我不能在这里提供具体的建议。

于 2013-05-14T07:31:42.700 回答