0

I tried to scrape a specific field on Toys R Us's page...

http://www.toysrus.com/product/index.jsp?productId=13157031

with the selector "price".

It all worked for one time through the page load, then it never worked again. Do some sites have ways of preventing people from scraping their content? I'm kinda new to this, please be gentle. I was using Wordpress, WP-Web-Scraper, and the following as the code in the page:

Price:

[wpws url="http://www.toysrus.com/product/index.jsp?productId=13157031"
 selector="price" on_error="error_show" user-agent="diaperbot"]
4

3 回答 3

2

markratledge 是对的。立即要考虑的事情是更改您的用户代理,这样您就不会识别自己。这是一个指向常见/最受欢迎代理列表的有用链接:http: //techblog.willshouse.com/2012/01/03/most-common-user-agents/。此外,您的 IP 是另一件大事。如果您仅使用 1 个 IP 进行抓取,根据您的数量,您可能会很快被阻止。您可能需要使用代理。我们那里有很多,从免费到收费。我发现 Ntrepid 的工具很有用(https://ion.ntrepidcorp.com/)。

于 2013-08-26T22:33:20.237 回答
1

某些网站是否有办法阻止人们抓取他们的内容?

是的,他们有。他们可能在您的查询中检测到用户代理并阻止了您的 IP。

为什么?阅读有关下载其内容的 TOS:http ://www.toysrus.com/helpdesk/index.jsp?display=safety&subdisplay=terms

那个 WP 插件相当原始。如果您想更有效地抓取网站并获得更好的结果,请使用 python,一种专门为抓取而设计的语言。检查http://www.google.com/search?q=python+scraper+tutorial

于 2013-08-16T20:56:17.060 回答
0

webscraper 有一些缓存问题,将 cacetime 设置为 0 !

于 2014-02-12T09:27:18.857 回答