问题标签 [import.io]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

199 问题

0 投票

2 回答

418 浏览

import.io - 无法在没有 Javascript 的情况下在 Import.io 上发布 Extractor 的 API

我在这里开始有点疯狂，所以希望有人可以提供帮助。我正在尝试使用 import.io 从购物网站获取产品的名称和价格。特别是，我正在这个 URL 上进行测试：http ://www.roddandgunn.com/clothing/knitwear/Urquhart%20Peak%20Knit/Urquhart-Peak-Knit.html

但是，我无法让 import.io 发布此时仅获取产品名称的 API。我手动覆盖了 XPath，页面禁用了 javascript，但每次我尝试发布时，我都会收到“API 发布失败”错误。

这是显示 JSON 时显示的文本：

（右手边）：

我不知道如何进一步简化它，因此我不确定它为什么拒绝让我为它发布 API。有没有人有任何想法？

import.io

2015-07-19T05:32:40.977

0 投票

1 回答

113 浏览

import.io - 为什么“我有我需要的”按钮有时在 import.io 中不起作用？

我正在使用 import.io 并尝试基于此页面创建爬虫： http ://www.flashscore.com/match/IeHoEHvJ/#match-statistics;0

在选择单行（每页一行）并添加一些列并对其进行训练后，我想单击“我已经得到了我需要的东西！”按钮。为了继续和训练另一个类似的页面。但是无法点击按钮，就好像程序在等我训练更多，尽管没有必要（我已经在其他网站上成功完成了这个程序，但是由于某种原因这个页面不起作用）。

知道为什么这不起作用吗？

当我尝试单击按钮但未成功时，请参阅以下 import.io 屏幕截图：http: //puu.sh/j5Vlm/fcc322549a.png

更新：得到 import.io facebook 群组的回复。由于 robots.txt，构建爬虫可能无法正常工作。但是构建一个提取器似乎是可行的，只需要找到一种简单的方法来收集所有要在提取器中使用的链接。

import.io

2015-07-20T11:37:59.793

0 投票

0 回答

152 浏览

xpath - 使用 import.io 计算图像数量

我尝试使用 XPathcount()来获取滑块上的图像数量。例如：

它在我使用 XPath 测试器（Chrome 的 XPath Helper 扩展）时有效，但在使用 import.io 时无效，这让我相信它不支持count(). 有没有不同的方法来计算图像的数量？

xpath import.io

2015-07-20T18:42:29.480

0 投票

1 回答

154 浏览

import.io - 在 php 页面上使用 import.io

HI 尝试在 php 页面上运行导入 io api，但未检测到数据。是否可以从这里获取数据

或类似的网页？

谢谢

import.io

2015-07-22T14:39:31.457

0 投票

1 回答

112 浏览

web-crawler - import.io如何将爬取的数据实时写入文件

我目前在 import.io 中设置了一个爬虫，它可以爬取大量页面（数万页）。一旦这个爬虫完成，我尝试查看数据只是发现它已经全部丢失，我认为这是由于数量庞大。有没有办法设置我的爬虫，以便在收集数据时将数据实时写入我的硬盘驱动器上的文件？

web-crawler import.io

2015-07-23T02:44:44.567

0 投票

2 回答

550 浏览

import.io - 如何抓取隐藏字段（“点击显示”字段）

我正在寻找一种方法来使用 import.io 从点击中抓取数据以显示字段

示例链接： http: //otomoto.pl/oferta/audi-a5-3-0-tdi-sportback-ID6y548D.html

当您单击左侧主照片下方的红色按钮“Wyświetl numer”时，它会显示一个数字。我想使用 import.io 来抓取这些数字

请帮忙

import.io

2015-07-23T06:00:30.757

0 投票

0 回答

94 浏览

pagination - 无法使用 API 获取正确的分页数据

您好，我尝试使用 import.io 提取分页数据。到目前为止，我已经设法通过使用批量提取来检索 JSON 数据。

但我需要通过 API，即导出窗格的 API，即使我通过批量提取更新 URL，该 API 目前仍保持不变。

这是网址http://www.metalstorm.net/events/new_releases.php 我想检索带有专辑封面的新版本表

希望尽快得到回复

pagination import.io

2015-07-25T12:54:48.137

0 投票

1 回答

115 浏览

import.io - 无法抓取特定网站

我无法在此站点上使用 Magic、抓取和构建连接器：

http://digitaltmuseum.se

如果使用“魔术”选项，import.io 就会冻结。

如果使用“爬虫”，我可以创建 API，但无法爬取。

如果使用“Connetor”，在第一次录制后，“带我到下一步”的粉红色按钮永远不会出现？

有什么想法，为什么这是不可能的，或者有任何关于我如何进行的提示？

import.io

2015-07-26T11:02:18.393

0 投票

1 回答

207 浏览

import.io - import.io - 抓取 Twitter 句柄和查询

我想看看是否有人可以就以下内容提出建议；对于步骤之前的一些上下文：

网站（sartwi.com/user/talktalkcare）展示了“TalkTalk”在英国使用的社交媒体发布平台，在左侧常用客户端下方可以看到Lithium social web。如果可能的话，我想看看我是否可以自动化某种过程，从而可以从不同公司的推特句柄列表中切换推特句柄，即 UFC 使用 Sprout Social (sartwi.com/user/ufc)，然后撤回并将平台输入到相应的单元格/字段中，即talktalk =锂等... UFC =发芽社交...

理想情况下，设置如下

上传到 import.io 的公司列表及其主页（我已经完成了）
抓取 URL 拉回其 Twitter 句柄
将 Twitter 句柄填充到与上述相同的列表中，在公司名称旁边
现在使用 twitter 句柄并关闭 (searwi.com/user/ HERE )
然后检查下
常用客户端
并拉回列表中的每个值

import.io 可以做到这一点吗？任何人都可以建议如何，我正在尝试拉我的头发！

谢谢，

标记

import.io

2015-07-27T19:22:30.720

0 投票

1 回答

66 浏览

web-scraping - 是否可以在 import.io 中重新运行网络爬虫？

我的电脑在运行爬虫的过程中关闭了，现在我需要重新运行它。

web-scraping web-crawler import.io

2015-07-28T14:30:42.497

1 2 3 4 5 6 7 8 9 10

问题标签 [import.io]

常用客户端

Reference