0

首先,应该提到我已经获得商店的许可来抓取这些数据,所以合法性在这里不是问题!

我正在尝试从各种在线商店中抓取信息,并每小时将它们存储在数据库中。

示例网站:http ://www.uptherestore.com/department/accessories

我试过这样的PHP 抓取

<?php
$file_string = file_get_contents('http://www.uptherestore.com/department/accessories');
preg_match('/<div class="view view-uc-products view-id-uc_products view-display-id-page_3 storeview view-dom-id-1">
(.*)<\/div>/i', $file_string, $title);
$title_out = $title[1];?>
<p><strong>Accessories:</strong> <?php echo $title_out; ?></p>

但它给了我类似的错误:

 [14-Feb-2013 07:39:49 UTC] PHP Warning:  DOMDocument::loadHTML() [<a href='domdocument.loadhtml'>domdocument.loadhtml</a>]: htmlCheckEncoding: encoder error in Entity, line: 7 in scraping.php on line 5

日志文件中的完整错误在这里: http: //pastebin.com/W2Bhkc0s

即使我确实设法从该站点抓取,它也只会返回结果的第一页(当我需要所有页面时)。我目前对此的解决方案是:

  • 使用 jQuery 检查页面底部的分页器中有多少元素
  • 运行一个循环来抓取这些页面中的每一个

但这并不理想 - 正如您所看到的,在页面底部有第 1...9 页,但如果您单击“最后”,则实际上有 11 页内容。简而言之,从这样的网站上抓取数据的最佳方法是什么?如前所述,店主都允许我使用他们的内容,但他们并不是特别注重技术,不能让我访问他们的服务器/在他们的服务器的 .htaccess 中放置任何代码以允许来自我的网站的请求。

4

3 回答 3

1

分页很简单,您只需找到显示“下一步”的链接并跟随它,直到它不再存在。除非您对 xpath 感到满意,否则需要一个好的 html 解析器库(phpquery、simple-html-dom)。准备好花大量时间找出正确的方法,最重要的是,不要听任何人告诉你使用正则表达式。

于 2013-02-21T08:48:38.570 回答
0

首先,您的错误消息似乎不适合您的 php 代码: php 正在尝试使用正则表达式解析 html(错误!)并且错误消息表明您正在使用 html 解析器(DOMDocument)来解析 html (正确的方式)。

您需要做的是:

  1. 从产品页面获取 html(就像您现在正在做的那样......);
  2. 检查该页面是否已在您的数据库中解析(请参阅下一点);
  3. 使用 html 解析器从该页面获取您需要的信息并将所有内容存储在数据库中 - 包括指向产品页面的链接或该页面的其他标识属性以及某种时间戳,以便您知道自己做了什么已经;
  4. 使用 html 解析器获取 html 中的所有产品链接;
  5. 转到 1. 对于您找到的每个产品链接。

您可能需要构建一些逻辑以确保您的脚本不会进入永无止境的循环或运行时间过长,但基本上就是这样;在您真正想在浏览器中查看操作结果之前,不需要浏览器/javascript/ajax。

于 2013-02-21T01:39:40.723 回答
0

使用 cURL 和正则表达式过滤您需要的内容。Google cURL php.net 网站将为您提供所需的所有信息

于 2013-02-21T01:17:01.043 回答