我正在尝试解析一些网页,例如:
http://www.imovirtual.com/imoveis/apartamentos/t0-t1-entrecampos-mobilado-lisboa/1038329/
http://www.imovirtual.com/imoveis/apartamentos/t2-quinta-do-romao-quarteira/1156717/
我正在使用 Nokogiri::HTML,第一个链接一切正常,但第二个链接我只得到垃圾并且无法解析。
我尝试使用curl
,结果是一样的。这是第二个链接的结果示例:
��� DG;v�u�G{f�
��;?�@ː0t�Yw���`~�d��
f9����:�}P2k�㤷ϓ���togg���B�D�j���P�AS���cV���5h+�dp
可能是什么问题?两个页面在浏览器中都很好地呈现,我在它们的 DOM 中找不到显着差异。
注意:wget
在第二个链接上使用会导致文件不可读。