问题标签 [import.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
234 浏览

import.io - 使用 XPath 显示隐藏数据

这对你们大多数人来说可能很容易,但这让我难倒了好几天。我目前正在使用 import.io 创建爬虫,但我仍在掌握使用 xpath 覆盖的方法。

我想知道获取仅在您单击按钮时才显示的数据的最佳方式。

这是该页面的示例: http ://www.timeout.com/newyork/restaurants/agave#tab_panel_2

这是xpath: //*[@id="tab___content_2"]/table/tbody/tr[2]/td/div/a[2]/span[2]

通过使用 xpath,我得到“呼叫地点”,但我正在寻找仅在单击按钮时才显示的电话号码。

这可能吗?

0 投票
1 回答
45 浏览

import.io - 创建连接器 - 在同一页面中刷新查询结果

创建连接器时,在“记录查询”中,我遵循两个步骤:1-接受用户协议;2-执行查询。

结果显示在同一页面中(无需重新加载),因此 import.io 不了解查询已发生。任何解决方法?

非常感谢,雷纳托

0 投票
1 回答
55 浏览

import.io - import.io 魔术提取器:如何使用 regionText?

API 文档支持文章对regionText 参数的确切用法有点不清楚。

它应该是一个简单的字符串还是一个 XPath?例如,查看http://www.circlecount.com/community/114481059214254340537 - 我想提取右中的表格。我当前的 API 请求如下所示:

https://api.import.io/store/data/_magic?url=http://www.circlecount.com/community/114481059214254340537®ionText=// *[@id=follower_table_114481059214254340537]&_apikey=XXX&_user=YYY

0 投票
2 回答
328 浏览

xpath - 导入 IO - 使用 XPath 显示“更多”内容

我对此完全感到困惑并寻求我们的帮助!

我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是,当我训练爬虫时,“更多”按钮处于非活动状态。

这是该页面的示例:[ http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]

这是完整的评论 Xpath://*[@id="UR288083139"]/div[2]/div/div[3]

到更多按钮: //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span

是否可以有一个 Xpath,以便完整的评论包含在 Import.io 中?

0 投票
3 回答
330 浏览

import.io - 运行爬虫得到的数据与训练时不同

在训练我的爬虫抓取 Yelp 页面时,它无需我做任何事情就可以获取所有信息,但是当我运行爬虫时,地址无法识别,也不会记录。

0 投票
2 回答
154 浏览

python - 当列表中有更多 URL 时,Import.io 批量提取会变慢

我设置了一个 Import.io 批量提取,可以很好地处理 50 个 URL。它实际上在几秒钟内就可以穿过所有这些。但是,当我尝试提取 40,000 个 URL 时,提取器在前一千个左右的时间里启动得非常快,然后每个增量 URL 都会逐渐变慢。到 5,000 时,每个 URL 大约需要 4-5 秒。

一种似乎可行的解决方案是一次将它们分成 1,000 个 URL 的块,并为每个块进行单独的批量提取。但是,这非常耗时,并且需要在最后将所有数据拼接在一起。

有没有人经历过这种情况,如果有,他们有更优雅的解决方案吗?

谢谢,迈克

0 投票
1 回答
178 浏览

php - 通过 cURL 访问 import.io API 时无法在 JSON 结果中获取实际的 html

当我通过复制 api-url 在浏览器中手动访问导入 api 时,我得到一个正确的 json 结果,其中 html 字段也有 html 结果。但是,当我使用 PHP 通过 cURL 访问相同的 api url 时,我只能在以下 json 结果中得到它: {"name":"my_html","type":"HTML"}..so 没有实际的 html。

我使用以下函数来 cURL php 中的 API:

我的问题是如何获得实际的 html?顺便说一句,对于文本、日期/时间等其他字段,一切正常。

0 投票
0 回答
117 浏览

import.io - 无法抓取加载更多的页面...链接

在某些网页(例如www.flipkart.com)中,当我们搜索某些内容时,我们会得到结果。在页面底部有“查看更多”或“加载更多”之类的链接。当我们点击它时,链接被重定向到同一页面,但显示更多结果。这里这些页面不是无限的。点击“查看更多”或“加载更多”后页面被终止。

如何使用 import.io 桌面应用程序抓取这些页面直到最后?

请帮我解决这个问题

0 投票
1 回答
78 浏览

import.io - 收集抓取页面的url

有什么方法可以收集被抓取页面的 URL 吗?作为带有链接的列,或者甚至更好,是否可以将 url 附加到抓取的图像或文本?

0 投票
1 回答
135 浏览

crash - Import.io 在 OS X El Capitan 上崩溃

我已将我的 OS X 更新为 El Capitan Public Beta (10.11 Beta (15A215h)),Import.io 现在不再打开。已经尝试擦除并重新安装但没有成功。有谁知道我是否可以做些什么来让它在这个新版本中工作?