4

我有一个包含地址、城市、州、邮编实体的数据框。从那里开始,我尝试使用 Yahoo API 对每个地址进行地理编码。

我基于 O'Reilly 的 Data Mashups using R Tutorial 中的代码。原始示例采用街道地址向量并使用硬编码的城市。我正在尝试制作一个支持多个城市的动态示例。

代码的缩写版本是:

    geocodeAddresses<-function(myStreets)
    }
  appid<-'<put your appid here>'
          baseURL<-"http://local.yahooapis.com/MapsService/V1/geocode?appid="
          myGeoTable<-data.frame(address=character(),lat=numeric(),long=numeric(),EID=numeric())
          for (myStreet in myStreets){  
            requestUrl<-paste(baseURL, appid, "&street=", URLencode(myStreet$address),"&city=",URLencode(myStreet$city),"&state=",URLencode(myStreet$state),sep="")
            xmlResult<-xmlTreeParse(requestUrl,isURL=TRUE,addAttributeNamespaces=TRUE)
            geoResult<-xmlResult$doc$children$ResultSet$children$Result
            lat<-xmlValue(geoResult[['Latitude']])
            long<-xmlValue(geoResult[['Longitude']])
            myGeoTable<-rbind(myGeoTable,data.frame(address=myStreet,Y=lat,X=long,EID=NA))
          }
    }

当我尝试引用 myStreet$City 和 myStreet$Address 时,我收到一个错误

$ operator is invalid for atomic vectors

除了遍历数据框 myStreets 之外,我不知道如何才能为每行仅调用一次 Yahoo API 并存储每个成员的 long/lat。

4

2 回答 2

6

如果myStreets是 data.frame 然后for循环获取它的每一列。所以第一步需要 Addres 和 Addres$City 没有意义。

您可以更改for条件以循环遍历行:

for (i in 1:nrow(myStreets))  {
   myStreet <- myStreets[i,]
   # rest is the same
}

要优化您的代码,您还可以执行以下操作:

myGeoTable <- data.frame( address=myStreet$address, lat=NA_real_, long=NA_real_, EID=NA_real_)
for (i in 1:nrow(myStreets))  {
  myStreet <- myStreets[i,] 
  requestUrl <- ...
  ...
  myGeoTable[i,2:4] <- c(lat,long,NA)
}
于 2009-09-28T22:41:25.357 回答
4

如果你要这样做,我不会在公共场合谈论它。这违反了他们的服务条款。我建议改用USC webgis。几个月前,我对大约一百万条记录进行了地理编码,没有太多问题。

于 2009-09-29T03:22:31.797 回答