0

我正在尝试使用 python2.7 和 beautifulsoup4 抓取网站。我正在使用的代码在一台机器上工作,在另一台机器上,我得到了结果“汤”,在字母之间添加了三个空格。我得到类似以下的东西(在终端中和在 eclipse/pydev 中一样。知道是什么原因造成的吗?

               i   f       (   w   i   n   d   o   w   .   D   o   m   L   o   a   d   e   d   )   
           {   
               D   o   m   L   o   a   d   e   d   .   l   o   a   d   (   f   u   n   c   t   i   o   n   (   )   {   b   a   n   n   e   r   S   y   n   c   (   '   t   b   '   )   ;   }   )   ;   

               d   o   c   u   m   e   n   t   .   w   r   i   t   e   (   '   d   i   v       i   d   =   "   d   o   m   L   o   a   d   e   d   "       s   t   y   l   e   =   "   d   i   s   p   l   a   y   :   n   o   n   e   "   >   \   /   d   i   v   >   '   )   ;   
           }   
       /   s   c   r   i   p   t   >   
       !   -   -       S   e   r   v   e   r   :       P   h   o   b   o   s   ,       S   e   r   v   e   r       t   i   m   e   :       0   ,   0   9   2   7       s       (   C   :       0   ,   0   5   2   0   ;       Q   :       7   ;       0   ,   0   0   2   2   ;       E   :       5   2   ;       0   ,   0   3   1   1       s   ,       M   :       3   ;       0   ,   0   0   1   1       s   ,       A   :       0   ;       0   ,   0   0   0   0       s   )   ,       M   e   m   :       1   2   3   0   1       K   B   ,       E   n   g   i   n   e   s   :       (   S   )       p   h   o   b   o   s       (   5   2   )       -   -   >   
   /   b   o   d   y   >   

/html>

4

1 回答 1

0

两台机器很可能安装了不同的 HTML 解析器库,请检查此链接。如您所知,不同的解析器可能有不同的解析结果,尤其是。对于那些格式不正确的 HTML。

于 2013-01-05T00:46:00.310 回答