4

您好我有一个包含大约 12,000 条记录的 xml 文件。我编写了代码,它工作正常,只需要一段时间来解析 xml 文件并返回内容。有什么方法可以加快这个过程吗?

我的代码:

<?php 
$dom = new DOMDocument(); 
$dom->load('comics.xml'); 
foreach ($dom->getElementsByTagName('record') as $entry) 
{   
$title = $entry->getElementsByTagName('title')->item(0)->textContent;   
echo $title;   

} 
?>

XML 文件(其中只有 1 个演示无法链接所有内容,哈哈):

<?xml version='1.0' encoding='utf-8'?>
<calibredb>
  <record>
    <id>1</id>
    <uuid>991639a0-7cf6-4a34-a863-4aab8ac2921d</uuid>
    <publisher>Marvel Comics</publisher>
    <size>6109716</size>
    <title sort="Iron Man v1 101">Iron Man v1 101</title>
    <authors sort="Unknown">
      <author>Unknown</author>
    </authors>
    <timestamp>2012-04-15T18:49:22-07:00</timestamp>
    <pubdate>2012-04-15T18:49:22-07:00</pubdate>
    <cover>M:/Comics/Unknown/Iron Man v1 101 (1)/cover.jpg</cover>
    <formats>
      <format>M:/Comics/Unknown/Iron Man v1 101 (1)/Iron Man v1 101 - Unknown.zip</format>
    </formats>
  </record>
  </calibredb>
4

3 回答 3

2

DOM方法适用于小型数据集,因为所有 XML 结构都被解析并放入内存中。

在您的情况下,您应该在解析大型 XML 文件时使用SAX方法,因为 XML 文件是逐行读取的,而不是一次读取所有内容。

谷歌有一些例子:https ://www.google.lv/search?q=php+SAX+XML

于 2012-07-30T23:15:42.233 回答
1

答案很大程度上取决于数据。一些可能的解决方案是将数据移动到像 MySQL 这样的关系数据库中,或者将数据规范化为像 CSV 这样更易于解析、占用空间更少并且可以逐行读取的格式。

于 2012-07-30T23:02:09.890 回答
0

我对 PHP 实现并不特别熟悉,但是在使用 Xerces 的 C++ 中使用以下方法时,我已经看到您的方案的性能得到了巨大的改进。

与其按名称请求所有元素并等待返回整个 NodeList,我发现只获取根节点下的第一个子节点然后获取 NextSibling 节点要快得多。将每个兄弟节点用作新节点,您将不断获得 NextSibling,直到没有剩余节点为止。

希望这可以在 PHP 中提供类似于在 C++ 中所做的性能改进。

于 2012-07-30T23:13:34.450 回答