-1

我帮助管理一个网站,该网站从父网站中提取一些页面的内容。我们对父站点的格式没有任何控制权,我们有义务获取内容(而不是复制/粘贴)以避免在不同站点上出现相同内容的多个版本。

这些页面的内容保存在一个表格中。我使用简单的正则表达式删除了大部分我们不需要的东西并改进了一些格式。当前字符串在处理后如下所示:

<table class='pageSetup'>    
   <tbody>
     <tr>
      <td>
         <!--Lots of content here, including child tables-->
      </td>
     </tr>
   </tbody>
</table>

我想在不损害包含表的 td 中的内容的情况下剥离该外部表(及其所有与子表相关的标签)。

我可以访问 PHP。我猜我想以某种方式使用 DOM 来做到这一点,但我对 DOM 没有太多经验。

谁能让我指出正确的方向?我解决了这个问题并遇到了砖墙。我没有任何代码(我昨晚沮丧地删除了它)。

谢谢!

4

1 回答 1

1

你可以使用这个http://simplehtmldom.sourceforge.net/

尝试将整个 html 内容加载到一个对象中,然后仅提取您需要的部分

  1. 查看此快速入门以了解如何将 hmtl 加载到对象中

  2. 然后将您的内容搜索为:

    $ret = $html->find('table[class=pageSetup] tbody tr td', 0);

  3. 最后,访问您需要的代码:

    $ret->innertext

我希望这有帮助

于 2013-10-26T19:48:42.613 回答