问题标签 [import.io]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

199 问题

0 投票

1 回答

234 浏览

import.io - 使用 XPath 显示隐藏数据

这对你们大多数人来说可能很容易，但这让我难倒了好几天。我目前正在使用 import.io 创建爬虫，但我仍在掌握使用 xpath 覆盖的方法。

我想知道获取仅在您单击按钮时才显示的数据的最佳方式。

这是该页面的示例： http ://www.timeout.com/newyork/restaurants/agave#tab_panel_2

这是xpath： //*[@id="tab___content_2"]/table/tbody/tr[2]/td/div/a[2]/span[2]

通过使用 xpath，我得到“呼叫地点”，但我正在寻找仅在单击按钮时才显示的电话号码。

这可能吗？

import.io

2015-07-06T08:40:51.903

0 投票

1 回答

45 浏览

import.io - 创建连接器 - 在同一页面中刷新查询结果

创建连接器时，在“记录查询”中，我遵循两个步骤：1-接受用户协议；2-执行查询。

结果显示在同一页面中（无需重新加载），因此 import.io 不了解查询已发生。任何解决方法？

非常感谢，雷纳托

import.io

2015-07-08T17:53:07.913

0 投票

1 回答

55 浏览

import.io - import.io 魔术提取器：如何使用 regionText？

API 文档和支持文章对regionText 参数的确切用法有点不清楚。

它应该是一个简单的字符串还是一个 XPath？例如，查看http://www.circlecount.com/community/114481059214254340537 - 我想提取右中的表格。我当前的 API 请求如下所示：

https://api.import.io/store/data/_magic?url=http://www.circlecount.com/community/114481059214254340537®ionText=// *[@id=follower_table_114481059214254340537]&_apikey=XXX&_user=YYY

import.io

2015-07-08T18:35:35.430

0 投票

2 回答

328 浏览

xpath - 导入 IO - 使用 XPath 显示“更多”内容

我对此完全感到困惑并寻求我们的帮助！

我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是，当我训练爬虫时，“更多”按钮处于非活动状态。

这是该页面的示例：[ http://www.tripadvisor.co.uk/Hotel_Review-g295424-d306662-Reviews-Hilton_Dubai_Jumeirah_Resort-Dubai_Emirate_of_Dubai.html#REVIEWS][1]

这是完整的评论 Xpath：//*[@id="UR288083139"]/div[2]/div/div[3]

到更多按钮： //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span

是否可以有一个 Xpath，以便完整的评论包含在 Import.io 中？

xpath web-crawler import.io

2015-07-13T15:02:58.230

0 投票

3 回答

330 浏览

import.io - 运行爬虫得到的数据与训练时不同

在训练我的爬虫抓取 Yelp 页面时，它无需我做任何事情就可以获取所有信息，但是当我运行爬虫时，地址无法识别，也不会记录。

import.io

2015-07-13T23:47:39.777

0 投票

2 回答

154 浏览

python - 当列表中有更多 URL 时，Import.io 批量提取会变慢

我设置了一个 Import.io 批量提取，可以很好地处理 50 个 URL。它实际上在几秒钟内就可以穿过所有这些。但是，当我尝试提取 40,000 个 URL 时，提取器在前一千个左右的时间里启动得非常快，然后每个增量 URL 都会逐渐变慢。到 5,000 时，每个 URL 大约需要 4-5 秒。

一种似乎可行的解决方案是一次将它们分成 1,000 个 URL 的块，并为每个块进行单独的批量提取。但是，这非常耗时，并且需要在最后将所有数据拼接在一起。

有没有人经历过这种情况，如果有，他们有更优雅的解决方案吗？

谢谢，迈克

python import.io

2015-07-14T02:36:50.473

0 投票

1 回答

178 浏览

php - 通过 cURL 访问 import.io API 时无法在 JSON 结果中获取实际的 html

当我通过复制 api-url 在浏览器中手动访问导入 api 时，我得到一个正确的 json 结果，其中 html 字段也有 html 结果。但是，当我使用 PHP 通过 cURL 访问相同的 api url 时，我只能在以下 json 结果中得到它： {"name":"my_html","type":"HTML"}..so 没有实际的 html。

我使用以下函数来 cURL php 中的 API：

我的问题是如何获得实际的 html？顺便说一句，对于文本、日期/时间等其他字段，一切正常。

php json curl import.io

2015-07-14T14:03:40.170

0 投票

0 回答

117 浏览

import.io - 无法抓取加载更多的页面...链接

在某些网页（例如www.flipkart.com）中，当我们搜索某些内容时，我们会得到结果。在页面底部有“查看更多”或“加载更多”之类的链接。当我们点击它时，链接被重定向到同一页面，但显示更多结果。这里这些页面不是无限的。点击“查看更多”或“加载更多”后页面被终止。

如何使用 import.io 桌面应用程序抓取这些页面直到最后？

请帮我解决这个问题

import.io

2015-07-14T18:02:13.913

0 投票

1 回答

78 浏览

import.io - 收集抓取页面的url

有什么方法可以收集被抓取页面的 URL 吗？作为带有链接的列，或者甚至更好，是否可以将 url 附加到抓取的图像或文本？

import.io

2015-07-16T17:12:11.650

0 投票

1 回答

135 浏览

crash - Import.io 在 OS X El Capitan 上崩溃

我已将我的 OS X 更新为 El Capitan Public Beta (10.11 Beta (15A215h))，Import.io 现在不再打开。已经尝试擦除并重新安装但没有成功。有谁知道我是否可以做些什么来让它在这个新版本中工作？

crash import.io osx-elcapitan

2015-07-18T14:14:37.157

1 2 3 4 5 6 7 8 9 10

问题标签 [import.io]

Reference