r - 使用 R 处理邮件文件

Question

我做了一些搜索，在没有找到太多东西之后，我想我会发布这个问题。实际上，因为我没有找到太多，我认为这可能是答案的一个指标，但无论如何......这里是：

有没有人有任何使用 R 处理邮政邮件文件的经验......如果是这样......你使用什么包？

我意识到 R 可能不是完成这项任务的最佳工具，但有时你必须使用手头的工具，有时你必须在工作中做“额外”的事情才能保持工作......所以请不要也抨击我这个问题很难。

基本上我在看合并清除、dup/elim 之类的东西。我已经使用了 compare() 和 merge() 命令。我想在比较中加入一些等价物，例如

ST=St=St.=街道

BLVD=Blvd=Blvd.=林荫大道等...

我主要想知道是否已经为这种数据处理开发了包，所以我没有重新发明轮子。

score 2 · Accepted Answer

我建议以下基本工作流程：

(1) 读入你的数据。根据您的问题，我不知道它是什么样的，所以我认为这对您来说很容易。

(2) 混合使用gsub、toupper和其他字符串操作工具将所有数据转换为相同的格式。即，让所有地址使用 ST 而不是 St 或 street 等。

(3)merge将所有内容放入一个数据框中。

(4) 使用unique和/或sort/order来清理列表并删除重复项。

(5) 输出为您想要的任何格式。同样，从问题中不清楚，所以我不能在这里提供具体的建议。

1 回答 1