-2

我使用file_get_contents().

当我得到这个内容时,我可以看到网站的所有内容和标签。

我需要从一些标签中提取内容,而不是全部。我认为最好的方法是获取内容并将其保存到数据库或文本文件中以供将来操作。

例如,如果我用 php 得到这个file_get_contents()

<html>
    <head><script src="script.js"></head>

    <body>
        <div id="header"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="image"></div>

        <div class="item"></div>
        <div class="item"></div>

        <div id="footer"></div>
    </body>
</html>

例如,我怎样才能获得类中 div 的内容item?是否可以使用 jQuery 或者我需要使用 php?我尝试了很多事情,但我需要一个指南或有人告诉我如何提取我需要的东西

感谢和问候

4

2 回答 2

0
  1. 首先你需要cURL刮。file_get_contents()= 没有自定义标题、虚假推荐人等的可怜人的抓取。
  2. 抓取的内容必须加载到DOMDocument.
  3. 您需要使用DOMXPathDOM 树中轻松定位您需要的节点。
  4. 作为一个备用计划,如果解析很容易,preg_match_all()如果小心处理,可能会成功。

你有一个计划......去学习并学习如何去做!

于 2013-06-17T15:51:09.717 回答
0

解析 HTML 并仅提取您想要的数据的最可靠方法是使用流行的框架(如 WebKit)呈现它。

尝试使用 PhantomJS ( http://phantomjs.org/ ),该程序可以让您呈现网页(通过命令行)并使用 javascript 或 API 与其交互。

我只是保存文件,将其加载到 PhantomJS 中,使用我自己的 jquery $('body').('.item').each(....

于 2013-06-17T15:54:23.757 回答