4

我正在尝试在 Import.io 中设置一个提取器,但我很难让 API 发布。每次它告诉我它不能发布 API 并且可能尝试使用 xpaths。因此,经过进一步研究,我发现在 craig 的列表页面上找到的标题链接的 xpath 保存在 span 标签中。标签如下:

span[@class='pl']

我尝试在 import.io 的 xpath 区域中为字段设置以下内容

//span[@class='pl']

但无济于事。无论我似乎尝试什么,我实际上都无法让 API 发布。虽然我能够将数据导出到数据集,但我真的很想获得一个 API 来发布。

我想知道是否有人成功使用 import.io 对 craigs 列表进行了一些小的抓取?如果是这样,为了让 API 正确发布,有哪些步骤?

另外,作为旁注,我已经阅读了一些关于 Scrapy 的文章,但我对 python、如何安装和运行它一无所知,即使我确实找到了与这个问题直接相关的特定代码。有人对我如何让 Import.io 发布 API 有任何见解吗?

4

1 回答 1

5

因此,对于寻找此问题答案的其他人来说,使用 Import.io 设置正确的 xpath 以在 Craig 的列表上抓取标题的方法是将高级 xpath 覆盖设置为以下内容:

.//span[@class='pl']/.

现在我的问题是关于从 Craig 的列表返回的 403 错误 - 意思是禁止。

于 2015-05-30T20:25:02.917 回答