1

我正在抓取一个网站以提取有关某些产品的信息,但我遇到了价格问题。我的代码如下:

> enlace<-"http://www.carulla.com/products/0000687608965009/Crema+Dental+Sensitive+Proalivio+Colgate"
> download.file(enlace, destfile = "scrapedpage.html", quiet=TRUE)
> doc<-read_html("scrapedpage.html")
> # description
> toString(xml_find_all(doc,xpath=paste0('//*[@id="pdpProduct"]/div[3]/h3')))
[1] "<h3 class=\"pdpInfoProductName\" itemprop=\"name\">Crema Dental Sensitive Proalivio Colgate</h3>"
> # reference
> toString(xml_find_all(doc,xpath=paste0('//*[@id="pdpProduct"]/div[3]/p')))
[1] "<p class=\"pdpInfoProductRef\">\r\n\t\t\t\t\t\t\t\t\tPresentación:C \r\n\t\t\t\t\t\t\t\t\tPLU:739983</p>"
> # prices
> toString(xml_find_all(doc,xpath=paste0('//*[@id="pdpProduct"]/div[3]/div[1]/div[2]/h4')))
[1] ""

我在原始页面的源代码中检查了这些信息,我在其中找到了这个:

<div class="pdpInfoProduct pull-left">
            <h3 class="pdpInfoProductName" itemprop="name">Crema Dental Sensitive Proalivio Colgate</h3>
            <h2 class="pdpInfoProductBrand" itemprop="brand">COLGATE</h2>
            <p class="pdpInfoProductRef">
                                Presentación:C&nbsp;
                                PLU:739983</p>
                        <div class="pdpInfoProductPrices">  
                <div class="pull-right">
                            <div class="pro-big-Ovalo">
                                <p>25%</p>
                            </div>
                        </div>
                    <div class="pdpInfoProductPrice" itemprop="offers" itemscope itemtype="http://schema.org/Offer">

                <meta itemprop="priceCurrency" content="COP" />
                    <meta itemprop="price" content="17213.0" />
                    <h4 class="priceOffer">
                        $17.213</h4>
                    <h6 class="before">Antes: <span class="strikeText">
                                $22.950</span>
                        </h6>
                    </div>
            </div>

我感兴趣的信息是 17.213 美元,但是当我尝试使用 R 下载源代码时,我得到以下信息:

> con2<-url(enlace,"r")
> x<-readLines(con2)
> close(con2)
> x[1270:1285]
 [1] "\t\t\t\t\t\t\t\t\tPLU:739983</p>"                                                                                                                                                
 [2] "\t\t\t\t\t\t\t<div class=\"pdpInfoProductPrices\">\t"                                                                                                                           
 [3] "\t\t\t\t\t<div class=\"pdpInfoProductPrice\" itemprop=\"offers\" itemscope itemtype=\"http://schema.org/Offer\">"                                                            
 [4] "\t\t\t\t\t"                                                                                                                                                                  
 [5] "\t\t\t\t\t<meta itemprop=\"priceCurrency\" content=\"COP\" />"                                                                                                               
 [6] "                        <meta itemprop=\"price\" content=\"\" />"                                                                                                       
 [7] "\t\t\t\t\t\t<h4 class=\"price\">"                                                                                                                                             
 [8] "\t\t\t\t\t\t\t</h4>"                                                                                                                                                           
 [9] "\t\t\t\t\t\t</div>"                                                                                                                                                           
[10] "\t\t\t\t</div>"                                                                                                                                                             
[11] "\t\t\t\t"                                                                                                                                                                   
[12] "\t\t\t\t\t\t\t\t\t"                                                                                                                                                              
[13] "\t\t\t\t\t\t\t\t\t\t\t\t\t  <div class=\"product-seller row-fluid\">"                                                                                                                
[14] "\t\t\t\t       <!-- +++++ Carulla Seller +++++ -->                                                "                                                                         
[15] "                               <p> Vendido por: &nbsp Carulla</p>                                                                                                      "
[16] "                    </div>"

也就是说,我获得了 \t\t\t\t\t\t\t 而不是 $17.213。

我将非常感谢您的帮助。

4

1 回答 1

0

该网站可能正在检查 UA 和 cookie,以试图阻止您执行您正在执行的操作。我刚刚尝试使用 wget 下载它,结果却得到了 403 Forbidden 错误。

如今,网络抓取的想法已经过时了,至少对于商业页面而言。有一些解决方法(例如,您可以查看 download.file() 的帮助,并阅读 wget 和 curl 的手册页以了解如何更改 UA 和导入 cookie),但如果您真的想大规模执行此操作,您可能希望查看浏览器脚本,然后将该数据导入 R。

请记住,您正在做一些网站所有者不希望您做的事情。简而言之,这几乎与 R 无关。

于 2017-04-26T15:42:47.480 回答