我的任务是下载尽可能多的平面销售报价。我有用于下载链接和其他内容的脚本,但我无法获得公寓的坐标(这对我来说至关重要,是我分析的重点)。
坐标在网站上可见(通过检查谷歌地图元素),但在网站源中不可见。
当我使用下面的 R 代码时,我得到一个空列表,如果我使用 XML 或 RCurl 包没有区别。
你认为有可能使用 R 来实现这一点,还是我应该考虑其他编程语言(例如 Python?)
library(XML)
library(RCurl)
url<-'http://en.otodom.pl/flat-poznan-jezyce-2720m2-2-rooms-125000-pln-id13250586.html'
doc<-htmlParse(url,encoding='utf-8')
xpathApply(doc,'//div[@id="googleMap"]',xmlGetAttr,'data-map')
#the same result
doc<-getURL(url, httpheader = c('User-Agent' = "Informative string with your contact info"),.encoding='utf-8')
doc<-htmlParse(doc,encoding='utf-8')
xpathApply(doc,'//div[@id="googleMap"]',xmlGetAttr,'data-map')
# the same here
doc<-getURL(url, followlocation=T)
doc<-htmlParse(doc,encoding='utf-8')
xpathApply(doc,'//div[@id="googleMap"]',xmlGetAttr,'data-map')