1

我正在使用 Beautiful Soup 进行网页抓取。我是新手。

问题1: 这是表格:

<table width="75%" align=center>
    <tr>
        <td><STRONG><font face="Arial" size=2>S.No:</font></STRONG></td>
        <td><font face="Arial" size=2> 1635925</font></td>
    </tr>
    <tr>
        <td><FONT size=2><STRONG><font face="Arial">Name:</font><br></STRONG></FONT></td>
        <td><font face="Arial" size=2> <b>Alex</b></font></td>
    </tr>
    <tr>
        <td><STRONG><font face="Arial" size=2>Dog's Name:</font></STRONG></td>
        <td><font face="Arial" size=2> Tiger</font></td>
    </tr>
    <tr>
        <td><STRONG><font face="Arial" size=2 >Cat's Name:</font></STRONG></td>
        <td><font face="Arial" size=2>Pussy</font></td>
    </tr>
</table>

这是参考上表的代码:

for row in soup('table')[4]('tr'):
  tds = row('td')
  print tds[0].string, tds[1].string

这是输出:

S.No:  1635925
None None
Dog's Name:  Tiger
Cat's Name: Pussy

问题是第 2 行,为什么要打印两列None

问题2:与上述类似的问题

  <tr bgcolor="#ffffff">
    <td align="middle"><font face="Arial" size=2>503</font></td>
    <td align="left"><font face="Arial" size=2>Text1</font></td>
    <td align="left"><font face="Arial" size=2>---</font></td>
    <td align="middle"><font face="Arial" size=2>2</font></td>
  </tr>  

   <tr bgcolor="#e6e6fa">
          <td colspan=4><font face="Arial" size=2>&nbsp;&nbsp;some random text</font></td>
   </tr>
   <tr >
    <td align="middle"><font face="Arial" size=2>048</font> </td>
    <td align="left"><font face="Arial" size=2>Text 2</font></td>
    <td align="left"><font face="Arial" size=2>187 &nbsp;&nbsp;&nbsp;&nbsp;</font></td>
    <td align="middle"><font face="Arial" size=2>2</font></td>
  </tr>

我的代码:

for row in soup('table')[5]('tr'):
    tds = row('td');
    if len(tds) == 4:
        print tds[0].string, tds[1].string, tds[2].string, tds[3].string

输出:

503 Text1 --- 2
None Text2 187     2

为什么第一列的文字是None而不是048

4

2 回答 2

1

试一试,text而不是string. 例如:

for row in soup('table')[4]('tr'):
  tds = row('td')
  print tds[0].text, tds[1].text

印刷:

S.No:  1635925
Name:  Alex
Dog's Name:  Tiger
Cat's Name: Pussy

根据docs,如果元素有多个子元素,string则变为:None

为方便起见,如果一个标签只有一个子节点,并且该子节点是一个字符串,则该子节点作为 tag.string 和 tag.contents[0] 可用。

于 2013-05-28T08:57:18.100 回答
1

问题是第二行的td元素不包含带有字符串内容的单个元素;它们包含其中两个。因此,string没有明确的值,因此返回None.

如果你把它分解成碎片,你可以看到:

>>> table = s('table')[4]
>>> row = table('tr')[1]
>>> col = row('td')[0]
>>> font = col('font')[0]
>>> strong = font('strong')[0]
>>> font2 = strong('font')[0]
>>> strong
<strong><font face="Arial">Name:</font><br/></strong>
>>> strong.string
>>> font2
<font face="Arial">Name:</font>
>>> font2.string
u'Name:'

如果您想要元素中所有字符串的文本表示,请使用text而不是string

>>> strong.text
u'Name:'
>>> font.text
u'Name:'
>>> col.text
u'Name:'
于 2013-05-28T08:59:27.697 回答