13

我在共享托管环境中有一个长时间运行的脚本,它输出一堆 XML

有时(仅有时)我的输出中会出现一个随机的 GZIP 标头,并且输出将被终止。

例如

0000000: 3c44 4553 435f 4c4f 4e47 3e3c 215b 4344  <DESC_LONG><![CD
0000010: 4154 415b 1fc2 8b08 0000 0000 0000 03c3  ATA[............
0000020: b3c3 8b57 c388 c38c 2b28 2d51 48c3 8bc3  ...W....+(-QH...
0000030: 8c49 5528 2e48 4dc3 8e4c c38b 4c4d c391  .IU(.HM..L..LM..
0000040: c3a3 0200 c291 4464 c383 1900 0000 0d0a  ......Dd........

或者

0000000: 3c2f 5052 4f44 5543 543e 0d0a 1fc2 8b08  </PRODUCT>......
0000010: 0000 0000 0000 03c3 b3c3 8b57 c388 c38c  ...........W....
0000020: 2b28 2d51 48c3 8bc3 8c49 5528 2e48 4dc3  +(-QH....IU(.HM.
0000030: 8e4c c38b 4c4d c391 c3a3 0200 c291 4464  .L..LM........Dd
0000040: c383 1900 0000 0d0a                      ........

或者

0000000: 3c4d 4544 4941 5f55 524c 3e2f 696d 6167  <MEDIA_URL>/imag
0000010: 6573 2f69 6d70 6f72 7465 642f 7374 6f63  es/imported/stoc
0000020: 6b5f 7072 6f64 3235 3339 365f 696d 6167  k_prod25396_imag
0000030: 655f 3531 3737 3439 3436 302e 6a70 673c  e_517749460.jpg<
0000040: 2f4d 4544 4941 5f55 1fc2 8b08 0000 0000  /MEDIA_U........
0000050: 0000 03c3 b3c3 8b57 c388 c38c 2b28 2d51  .......W....+(-Q
0000060: 48c3 8bc3 8c49 5528 2e48 4dc3 8e4c c38b  H....IU(.HM..L..
0000070: 4c4d c391 c3a3 0200 c291 4464 c383 1900  LM........Dd....
0000080: 0000 0d0a                                ....

切换到 GZIP 似乎在任何特定时间 og 字节数都没有命中,它可以在 1MB 数据之后或 15MB 之后

对应行编译的刀片模板如下

<DESC_LONG><![CDATA[<?php echo $product->display_name; ?>]]></DESC_LONG>

-

</PRICES>
</PRODUCT>
<?php foreach($product->models()->get() as $model): ?>

-

<MEDIA_URL>/images/imported/<?php echo $picture->local_name; ?></MEDIA_URL>

我不知所措,我尝试了以下方法:

  • 在服务器上禁用 gzip。
  • 在运行while(ob_get_level()){ ob_end_clean(); }脚本之前运行
  • .htaccess我尝试过SetEnv no-gzip 1SetEnv no-gzip dont-vary以及它的各种排列。

当我访问其他页面时,没有出现 gzip 编码或标题,所以我认为这是输出大小或输出缓冲区的问题。

4

3 回答 3

1

你终于知道这些标题是从哪里来的了吗?我的意思是apache还是php?

您可以使用以下内容模拟 xml 生成器 scipt:

echo file_get_contents('your_good_test.xml');

如果您看不到任何标题,我建议您调试您的 xml 生成器。您可以尝试header_remove();在输出前调用。

如果您看到标头,则必须调试您的 Web 服务器。尝试通过重写规则禁用 apache 中的 gzip:

`RewriteRule . - [E=no-gzip:1]`

每当您有任何代理或平衡器(nginx、squid、haproxy)时,您都会自动获得更多的火线。

于 2014-02-11T07:24:15.633 回答
1

这更像是一组评论,但是对于评论框来说太长了。

首先,这很可能不是输出缓冲区问题。尽管<![CDATA[and ]]>不在 PHP 标记中,但这并不意味着它不会通过 PHP 的输出缓冲区。需要明确的是,.php 文件中的任何内容都将放置在 PHP 输出缓冲区中。.php 文件中的内容(包括静态内容)在 Apache 外部缓冲,然后在脚本完成时通过此缓冲区传递回 Apache。这意味着您的问题必须存在于代码本身,这是在不查看代码的情况下在黑暗中解决的问题。

我的建议:

1) 在脚本中进行搜索以查找 gz 函数的任何实例(gzcompress、gzdeflate、gzdecode 等)。如果内容大于特定大小,我已经看到脚本会压缩内容,然后在从数据库中获取内容时即时解压缩内容。如果是这种情况,您可能正在处理错误的比较操作。简而言之,压缩和解压缩条件中的逻辑略有偏差,因此它无法解压缩某些内容。

2)在脚本中进行搜索以查看如何获取此数据。全部来自数据库吗?它是否来自流?有没有远程获取的?这些问题可能不会直接导致答案,但至关重要。可以安全地假设这些变量是在不应该压缩的情况下使用已经压缩的数据设置的。它需要知道压缩在哪里/为什么/如何进行,以便回答为什么没有被解压缩。

3) 它在一个系统上按预期工作,但在另一个系统上按预期工作,这一点非常重要。我见过这种情况的唯一一次总是由于配置的差异。你的本地机器使用的是什么操作系统?本地数据库有什么区别(如果有的话),其中一个或另一个上可能缺少/存在哪些扩展,可能导致函数退回到两台不同机器上的不同过程。

编辑:另外,这是一个很小的机会,但是您是否正在处理来自不同服务器的 SQL 转储的数据?您说它可以在您的本地主机上运行,​​但不能在其他主机上运行,​​所以我们知道您在处理两台机器。在某个时候有第三个吗?如果是这样,它可能是使用不匹配的版本/压缩形式进行压缩的,或者可能是编码问题。

于 2014-02-11T19:59:40.983 回答
1

您的 gziping 与返回您的主要 xml 正文的服务器输出无关。否则整个 xml 将被压缩。

这些方法有时会返回 GZIP,因为这些获取项目的源设置为支持 gzip 并且未正确询问。

$product->display_name
$product->models()->get()
$picture->local_name

看看里面这些。- 检查所有设置标头的位置的网络调用。- 暂时禁用数据库连接的压缩(如果有)。

为所有可以返回二进制数据的地方添加 CDATA 标记,以避免主要的 xml 正文构建终止。等待带有 bin 数据的 xml,保存 bin 数据,解压缩并查看里面的内容。:-)

于 2014-02-11T11:42:54.327 回答