xpath - 如何在 import.io 中正确设置 xpaths 以进行抓取

Question

我正在尝试在 Import.io 中设置一个提取器，但我很难让 API 发布。每次它告诉我它不能发布 API 并且可能尝试使用 xpaths。因此，经过进一步研究，我发现在 craig 的列表页面上找到的标题链接的 xpath 保存在 span 标签中。标签如下：

span[@class='pl']

我尝试在 import.io 的 xpath 区域中为字段设置以下内容

//span[@class='pl']

但无济于事。无论我似乎尝试什么，我实际上都无法让 API 发布。虽然我能够将数据导出到数据集，但我真的很想获得一个 API 来发布。

我想知道是否有人成功使用 import.io 对 craigs 列表进行了一些小的抓取？如果是这样，为了让 API 正确发布，有哪些步骤？

另外，作为旁注，我已经阅读了一些关于 Scrapy 的文章，但我对 python、如何安装和运行它一无所知，即使我确实找到了与这个问题直接相关的特定代码。有人对我如何让 Import.io 发布 API 有任何见解吗？

score 5 · Accepted Answer

因此，对于寻找此问题答案的其他人来说，使用 Import.io 设置正确的 xpath 以在 Craig 的列表上抓取标题的方法是将高级 xpath 覆盖设置为以下内容：

.//span[@class='pl']/.

现在我的问题是关于从 Craig 的列表返回的 403 错误 - 意思是禁止。

1 回答 1