1

对于 Scrapy 和 Python 来说还是有点新,所以希望得到一些指导。现在我正在尝试使用默认的 lxml 来解决这个问题,但我听说 BeautifulSoup 也很好。如果它们使这更容易,可以尝试其他选择器。

我正在尝试抓取具有一些非常糟糕结构的 html 对象。对象的详细信息没有嵌套在与其名称相同的结构中(没有 div 或任何东西)。我不知道如何提取节点,然后从相邻节点中提取详细信息(而不是从嵌套元素中)

它目前的定义如下:

<!--first item-->
<h2 class="name">
    <a href="link">Name goes here</a>
</h2>
<table>
<tbody>
    <tr>
        <th>ID</th>
        <td><a href="link">123456</a></td>
    </tr>
    <tr>
        <th>Description</th>
        <td>More details here</td>
    </tr>
    <tr>
        <th>Date</th>
        <td>1/1/13</td>
    </tr>
</tbody>
</table>
<!-- end first item -->

<hr>

<!--second item-->
<h2 class="name">
   <a href="link">Name goes here</a>
</h2>
<table>
<tbody>
    <tr>
        <th>ID</th>
        <td><a href="link">123456</a></td>
....

请注意 ID、描述和日期如何没有嵌套在与名称相同的 div 中。此外,第 2 项与第 1 项的名称和详细信息相邻。

对此的任何帮助表示赞赏。

4

1 回答 1

2

你想要following-sibling。如:

hxs.select("//th[text()='ID']/following-sibling::td[1]/a/@href")
于 2013-09-21T03:37:13.477 回答