问题标签 [import.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
418 浏览

import.io - 无法在没有 Javascript 的情况下在 Import.io 上发布 Extractor 的 API

我在这里开始有点疯狂,所以希望有人可以提供帮助。我正在尝试使用 import.io 从购物网站获取产品的名称和价格。特别是,我正在这个 URL 上进行测试:http ://www.roddandgunn.com/clothing/knitwear/Urquhart%20Peak%20Knit/Urquhart-Peak-Knit.html

但是,我无法让 import.io 发布此时仅获取产品名称的 API。我手动覆盖了 XPath,页面禁用了 javascript,但每次我尝试发布时,我都会收到“API 发布失败”错误。

这是显示 JSON 时显示的文本:

(右手边):

我不知道如何进一步简化它,因此我不确定它为什么拒绝让我为它发布 API。有没有人有任何想法?

0 投票
1 回答
113 浏览

import.io - 为什么“我有我需要的”按钮有时在 import.io 中不起作用?

我正在使用 import.io 并尝试基于此页面创建爬虫: http ://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0

在选择单行(每页一行)并添加一些列并对其进行训练后,我想单击“我已经得到了我需要的东西!”按钮。为了继续和训练另一个类似的页面。但是无法点击按钮,就好像程序在等我训练更多,尽管没有必要(我已经在其他网站上成功完成了这个程序,但是由于某种原因这个页面不起作用)。

知道为什么这不起作用吗?

当我尝试单击按钮但未成功时,请参阅以下 import.io 屏幕截图:http: //puu.sh/j5Vlm/fcc322549a.png

更新:得到 import.io facebook 群组的回复。由于 robots.txt,构建爬虫可能无法正常工作。但是构建一个提取器似乎是可行的,只需要找到一种简单的方法来收集所有要在提取器中使用的链接。

0 投票
0 回答
152 浏览

xpath - 使用 import.io 计算图像数量

我尝试使用 XPathcount()来获取滑块上的图像数量。例如:

它在我使用 XPath 测试器(Chrome 的 XPath Helper 扩展)时有效,但在使用 import.io 时无效,这让我相信它不支持count(). 有没有不同的方法来计算图像的数量?

0 投票
1 回答
154 浏览

import.io - 在 php 页面上使用 import.io

HI 尝试在 php 页面上运行导入 io api,但未检测到数据。是否可以从 这里获取数据

或类似的网页?

谢谢

0 投票
1 回答
112 浏览

web-crawler - import.io如何将爬取的数据实时写入文件

我目前在 import.io 中设置了一个爬虫,它可以爬取大量页面(数万页)。一旦这个爬虫完成,我尝试查看数据只是发现它已经全部丢失,我认为这是由于数量庞大。有没有办法设置我的爬虫,以便在收集数据时将数据实时写入我的硬盘驱动器上的文件?

0 投票
2 回答
550 浏览

import.io - 如何抓取隐藏字段(“点击显示”字段)

我正在寻找一种方法来使用 import.io 从点击中抓取数据以显示字段

示例链接: http: //otomoto.pl/oferta/audi-a5-3-0-tdi-sportback-ID6y548D.html

当您单击左侧主照片下方的红色按钮“Wyświetl numer”时,它会显示一个数字。我想使用 import.io 来抓取这些数字

请帮忙

0 投票
0 回答
94 浏览

pagination - 无法使用 API 获取正确的分页数据

您好,我尝试使用 import.io 提取分页数据。到目前为止,我已经设法通过使用批量提取来检索 JSON 数据。

但我需要通过 API,即导出窗格的 API,即使我通过批量提取更新 URL,该 API 目前仍保持不变。

这是网址http://www.metalstorm.net/events/new_releases.php 我想检索带有专辑封面的新版本表

希望尽快得到回复

0 投票
1 回答
115 浏览

import.io - 无法抓取特定网站

我无法在此站点上使用 Magic、抓取和构建连接器:

http://digitaltmuseum.se

如果使用“魔术”选项,import.io 就会冻结。

如果使用“爬虫”,我可以创建 API,但无法爬取。

如果使用“Connetor”,在第一次录制后,“带我到下一步”的粉红色按钮永远不会出现?

有什么想法,为什么这是不可能的,或者有任何关于我如何进行的提示?

0 投票
1 回答
207 浏览

import.io - import.io - 抓取 Twitter 句柄和查询

我想看看是否有人可以就以下内容提出建议;对于步骤之前的一些上下文:

网站(sartwi.com/user/talktalkcare)展示了“TalkTalk”在英国使用的社交媒体发布平台,在左侧常用客户端下方可以看到Lithium social web。如果可能的话,我想看看我是否可以自动化某种过程,从而可以从不同公司的推特句柄列表中切换推特句柄,即 UFC 使用 Sprout Social (sartwi.com/user/ufc),然后撤回并将平台输入到相应的单元格/字段中,即talktalk =锂等... UFC =发芽社交...

理想情况下,设置如下

  1. 上传到 import.io 的公司列表及其主页(我已经完成了)
  2. 抓取 URL 拉回其 Twitter 句柄
  3. 将 Twitter 句柄填充到与上述相同的列表中,在公司名称旁边
  4. 现在使用 twitter 句柄并关闭 (searwi.com/user/ HERE )
  5. 然后检查下

    常用客户端

    并拉回列表中的每个值

import.io 可以做到这一点吗?任何人都可以建议如何,我正在尝试拉我的头发!

谢谢,

标记

0 投票
1 回答
66 浏览

web-scraping - 是否可以在 import.io 中重新运行网络爬虫?

我的电脑在运行爬虫的过程中关闭了,现在我需要重新运行它。