ruby - 抓取网页时这些奇怪的问题是什么，也许是编码？

Question

我正在尝试解析一些网页，例如：

http://www.imovirtual.com/imoveis/apartamentos/t0-t1-entrecampos-mobilado-lisboa/1038329/
http://www.imovirtual.com/imoveis/apartamentos/t2-quinta-do-romao-quarteira/1156717/

我正在使用 Nokogiri::HTML，第一个链接一切正常，但第二个链接我只得到垃圾并且无法解析。

我尝试使用curl，结果是一样的。这是第二个链接的结果示例：

��� DG;v�u�G{f�
                     ��;?�@ː0t�Yw���`~�d��
f9����:�}P2k�㤷ϓ���togg���B�D�j���P�AS���cV���5h+�dp

可能是什么问题？两个页面在浏览器中都很好地呈现，我在它们的 DOM 中找不到显着差异。

注意：wget在第二个链接上使用会导致文件不可读。

score 2 · Accepted Answer

网页是压缩的，查看头部：Content-Encoding:gzip 需要解压。

编辑：

如果您使用的是 ruby，请尝试以下操作：

cleanHtml = Zlib::GzipReader.new(StringIO.new(htmlCompressed)).read

ruby - 抓取网页时这些奇怪的问题是什么，也许是编码？

1 回答 1

Related

Reference