问题标签 [import.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
214 浏览

mysql - Import.io JSON 数据导入 MySQL 数据库

我正在尝试连接到我的 import.io 提取器并从中获取数据。然后我尝试将数据导入 MySQL 数据库。我一直在关注此处给出的示例:http: //support.import.io/knowledgebase/articles/511605-extractor-to-sql-database但由于某种原因我无法将任何数据放入我的数据库中。解决此问题的任何帮助都会非常有帮助。以下是一些附加信息。

下面是我运行本教程中的命令时的输出,这些命令已经过一些修改以供我个人使用。

下面是我刚出去从同一个提取器中获取数据并将其转储到文件时返回的数据示例:

0 投票
2 回答
185 浏览

python - ImportError:没有名为闩锁的模块

当我为一个 api 运行 import.io 示例时,比如官方 api 文档,我得到了这个错误。

此外,我输入 '''pip install latch''' 点子中没有称为闩锁的模块。

我找不到闩锁包,我在哪里可以找到?请帮助我。

0 投票
0 回答
121 浏览

json - 如何获取我在 import.io 中使用 New Extractor 从页面中提取的每一列的 data_type?

我正在研究import.io,我使用New Extractor从网站页面获取数据。我创建不同类型的列并将内容插入其中之后,我发布该数据。我得到了 JSON 格式的数据。但是那个 JSON 格式的数据没有给我列的 data_type,这意味着这个列的格式是文本或图像或任何其他格式。那么我如何使用New Extractor获取列的 data_type请帮助我?

0 投票
1 回答
197 浏览

xml - 无法为 import.io 的爬虫中的网页元素获取正确的 XPath

我正在尝试使用来自网站 Allociné(最大的法国电影数据库)的电影数据创建一个 .csv 文件,用于一个研究项目,使用 import.io 的 Crawler,因为我的编程知识很差(目前正在攻读生态学博士学位)并且拥有一个易于理解的工具似乎是最好的主意。

对于我需要的每一部电影:

  1. 电影的标题
  2. 发布日期(FR 中的“Date de Sortie”)
  3. 电影的类型

这是 Allociné 电影页面的示例(用于《星球大战 I》):http ://www.allocine.fr/film/fichefilm_gen_cfilm=20754.html

起初我尝试使用 import.io 的选择工具,但它不起作用,因为有些电影有两个发布日期而不是一个(如上面的 SW1 - 1999 年的原始版本和 2012 年的 3D 版本('重播')) - 搞砸了爬行者。所以我不得不使用 XPaths 来识别我需要的元素。标题工作得很好(使用//title),但我对发布日期和流派有疑问。

对于发布日期,我从页面源中提取的 XPath 是:

/@content在最后添加以获取 yyyy-MM-dd 格式的日期,这导致:

但是,import.io 无法识别我需要他找到的元素。

对于流派,同样的事情,我从 Chrome 中获得了第一个流派(科幻小说)的 XPath:

我需要 import.io 来收集所有流派,所以我删除了[1]froma[1]以获得完整的a.

它也不起作用,import.io 返回一个空元素。

因此,任何关于它为什么不起作用的解释都将非常感激!对不起,如果我错过了一些明显的东西,正如我所说,我根本不是专家。

布莱斯

0 投票
1 回答
195 浏览

import.io - import.io 中的 Classic Extractor 和 New Extractor 有什么区别?

Classic ExtractorNew Extractor之间的主要区别是什么,哪个最好用?

0 投票
1 回答
220 浏览

xpath - 如何在 import.io 中正确设置 xpaths 以进行抓取

我正在尝试在 Import.io 中设置一个提取器,但我很难让 API 发布。每次它告诉我它不能发布 API 并且可能尝试使用 xpaths。因此,经过进一步研究,我发现在 craig 的列表页面上找到的标题链接的 xpath 保存在 span 标签中。标签如下:

我尝试在 import.io 的 xpath 区域中为字段设置以下内容

但无济于事。无论我似乎尝试什么,我实际上都无法让 API 发布。虽然我能够将数据导出到数据集,但我真的很想获得一个 API 来发布。

我想知道是否有人成功使用 import.io 对 craigs 列表进行了一些小的抓取?如果是这样,为了让 API 正确发布,有哪些步骤?

另外,作为旁注,我已经阅读了一些关于 Scrapy 的文章,但我对 python、如何安装和运行它一无所知,即使我确实找到了与这个问题直接相关的特定代码。有人对我如何让 Import.io 发布 API 有任何见解吗?

0 投票
2 回答
1629 浏览

xpath - 如果两个元素之一存在,则 XPath 选择 1 个元素

如果在将其用于 2 页时存在 2 个元素中的一个,我想选择一个元素

第一页(折扣价)

或第二页(只有一个价格)

我用过 //span[@class="originalRetailPrice"] | (//div[@class="priceBlock"])[1] ,但我得到了两倍的价格

我想要的是选择第一个价格是什么时候class="originalRetailPrice"或者什么时候//div[@class="price"]/text()[1]

所以最后我想让选择在两个页面上都起作用

0 投票
1 回答
275 浏览

xpath - XPath following-sibling 用于爬行不返回同级

我正在尝试创建一个爬虫来从供应商网站中提取一些属性数据,我可以针对我们的内部属性数据库进行审计,并且是 import.io 的新手。我看了一堆视频,但虽然我的语法似乎是正确的,但我的手动 xpath 覆盖并没有返回属性值。我有以下示例 html 代码:

我正在尝试在兄弟语句之后编写一个 xpath,以通过 import.io 爬虫获取“颜色”。我选择“颜色”时的 xpath 代码是:

我试过使用:

但它没有从表中获取颜色属性值。我不确定它是否与奇偶行类有关?当我查看 html 时,似乎合乎逻辑;color 是“颜色”,属性值在下面的 td 括号中。

0 投票
1 回答
154 浏览

api - import.io URL 返回

我正在使用 Import.io 对客户博客上的资产进行分类。

我的一切运行良好,我看到了一些很好的结果,但是当我进行批量提取时,我得到的结果比我输入的要少,大约 145 与我输入的 150 左右。

我对此进行了追踪,发现许多 URL 已更改,我通过调用的另一个步骤对其进行了排序。

现在我知道我正在测试正确的 URL,但我仍然得到相同的结果,尽管现在是 148 对 150。

我必须手动追踪哪些没有返回,因为 import.io 只是说返回了 148 个 URL。当我追踪它们并单独查询它们时,它们总是可以正常工作。

有没有其他人有这个问题?我必须很快在这方面训练几支球队,他们会在这一步上挣扎。

我已经询问了他们的支持团队,但还没有人回来。有人帮我吗?

0 投票
1 回答
220 浏览

import.io - 使用 import.io 进行批量提取时防止 URL 跳过

因此,很长一段时间以来,我一直在使用 import.io 桌面应用程序提取大量数据;但一直困扰我的是,当您尝试批量提取多个 URL 时,它总是会跳过大约一半的 URL。

这不是 URL 问题,如果您采用相同的假设 15 个 URL,它将返回例如第一次 8、第二次 7、第三次 9;一些链接将第一次被提取,但第二次将被跳过,依此类推。

我想知道有没有办法让它处理我提供的所有 URL?