注意:由于给出了一些早期答案,因此该问题已更新。这仍然是同一个问题,只是希望更清楚。
我正在尝试让站点抓取工具正常工作,但在为某些表格单元格提供合适的 xpath 字符串时遇到了问题。
<tbody>
<tr>
<td class="Label" width="20%" valign="top">Uninteresting section</td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td></td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td class="Label" width="20%" valign="top">Interesting section</td>
<td class="Data"> I want this-1</td>
</tr>
<tr>
<td></td>
<td class="Data"> I want this-2</td>
</tr>
<tr>
<td></td>
<td class="Data"> I want this-n</td>
</tr>
<tr>
<td class="Label" width="20%" valign="top">Uninteresting section</td>
<td class="Data"> I don't care about this</td>
</tr>
<tr>
<td></td>
<td class="Data"> I don't care about this</td>
</tr>
</tbody>
我想要有趣部分中所有数据字段的内容。这些可以有任意数量。我不关心代码中的其他任何内容,但我需要所有这些。
在上面的例子中: 我想要 this-1 我想要 this-2 我想要 this-n
如果相关,我将 xml.dom.minidom 和 py-dom-xpath 与 Python 2.7 一起使用。