这个问题可能看起来像重复,但我在从字符串中提取国家名称时遇到了一些问题。我已经通过此链接 [链接]从作者附属机构中提取国家名称, 但我无法解决我的问题。我尝试使用 grepl 和 for 循环进行文本匹配和替换,我的数据列包含超过 300k 行,因此使用 grepl用于模式匹配的 for 循环非常非常慢。
我有一个这样的专栏。
org_loc
Zug
Zug Canton of Zug
Zimbabwe
Zigong
Zhuhai
Zaragoza
York United Kingdom
Delhi
Yalleroi Queensland
Waterloo Ontario
Waterloo ON
Washington D.C.
Washington D.C. Metro
New York
df$org_loc <- c("zug", "zug canton of zug", "zimbabwe",
"zigong", "zhuhai", "zaragoza","York United Kingdom", "Delhi","Yalleroi Queensland","Waterloo Ontario","Waterloo ON","Washington D.C.","Washington D.C. Metro","New York")
该字符串可能包含州、城市或国家/地区的名称。我只想要 Country 作为输出。像这样
org_loc
Switzerland
Switzerland
Zimbabwe
China
China
Spain
United Kingdom
India
Australia
Canada
Canada
United State
United state
United state
我正在尝试使用国家代码库将状态(如果找到匹配项)转换为其国家,但无法这样做。任何帮助都是不言而喻的。