0

我正在从我的 Google 日历中导入一些事件,我正在这样做:

$ch = curl_init("my_google_calendar_url");
$fp = fopen("cal.xml", "w");
curl_setopt($ch, CURLOPT_FILE, $fp);
curl_setopt($ch, CURLOPT_HEADER, 0);
curl_exec($ch)
fclose($fp);
curl_close($ch);

我正在将所有数据转储到 XML 文件中,但所有 html 标签也与数据一起转储到输出中,这反过来又拆分输出,例如

新放假时间:2012年12月21日周五13:00-14:00  IST<br>

&lt;br&gt;Where: Aus
&lt;br&gt;Event Status: confirmed</summary><content type='html'>When: Fri 21 Dec 2012 13:00 to 14:00 
IST&lt;br /&gt;

&lt;br /&gt;Where: Aus
&lt;br /&gt;Event Status: confirmed
&lt;br /&gt;Event Description: It&amp;#39;s going to be awesome.</content>

这是我在 xml 文件中得到的一小部分内容。我想剥离所有 html 标签,如“<”等,以便轻松提取 xml 数据。

4

2 回答 2

1

HTML 被视为 XML 中的数据,因此:

  1. 使用 XML 解析器解析 XML
  2. 从生成的 DOM 中获取 HTML
  3. 使用 HTML 解析器解析HTML
  4. 从中提取您需要的任何数据
于 2012-12-21T09:56:03.133 回答
1

删除 CURLOPT_FILE 选项并使用$output = curl_exec($ch); You can then $output = strip_tags(html_entity_decode($output));andfwrite($fp, $output);

于 2012-12-21T09:56:31.870 回答