1

我正在尝试解析一些网页,例如:

http://www.imovirtual.com/imoveis/apartamentos/t0-t1-entrecampos-mobilado-lisboa/1038329/
http://www.imovirtual.com/imoveis/apartamentos/t2-quinta-do-romao-quarteira/1156717/

我正在使用 Nokogiri::HTML,第一个链接一切正常,但第二个链接我只得到垃圾并且无法解析。

我尝试使用curl,结果是一样的。这是第二个链接的结果示例:

��� DG;v�u�G{f�
                     ��;?�@ː0t�Yw���`~�d��
f9����:�}P2k�㤷ϓ���togg���B�D�j���P�AS���cV���5h+�dp

可能是什么问题?两个页面在浏览器中都很好地呈现,我在它们的 DOM 中找不到显着差异。

注意:wget在第二个链接上使用会导致文件不可读。

4

1 回答 1

2

网页是压缩的,查看头部:Content-Encoding:gzip 需要解压。

编辑:

如果您使用的是 ruby​​,请尝试以下操作:

cleanHtml = Zlib::GzipReader.new(StringIO.new(htmlCompressed)).read
于 2013-06-03T14:36:51.693 回答