问题标签 [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
import.io - 使用 XPath 显示隐藏数据
这对你们大多数人来说可能很容易,但这让我难倒了好几天。我目前正在使用 import.io 创建爬虫,但我仍在掌握使用 xpath 覆盖的方法。
我想知道获取仅在您单击按钮时才显示的数据的最佳方式。
这是该页面的示例: http ://www.timeout.com/newyork/restaurants/agave#tab_panel_2
这是xpath: //*[@id="tab___content_2"]/table/tbody/tr[2]/td/div/a[2]/span[2]
通过使用 xpath,我得到“呼叫地点”,但我正在寻找仅在单击按钮时才显示的电话号码。
这可能吗?
import.io - 创建连接器 - 在同一页面中刷新查询结果
创建连接器时,在“记录查询”中,我遵循两个步骤:1-接受用户协议;2-执行查询。
结果显示在同一页面中(无需重新加载),因此 import.io 不了解查询已发生。任何解决方法?
非常感谢,雷纳托
import.io - import.io 魔术提取器:如何使用 regionText?
API 文档和支持文章对regionText 参数的确切用法有点不清楚。
它应该是一个简单的字符串还是一个 XPath?例如,查看http://www.circlecount.com/community/114481059214254340537 - 我想提取右中的表格。我当前的 API 请求如下所示:
https://api.import.io/store/data/_magic?url=http://www.circlecount.com/community/114481059214254340537®ionText=// *[@id=follower_table_114481059214254340537]&_apikey=XXX&_user=YYY
xpath - 导入 IO - 使用 XPath 显示“更多”内容
我对此完全感到困惑并寻求我们的帮助!
我正在使用 Import.io 爬虫从 TripAdvisor 提取评论。但是,当我训练爬虫时,“更多”按钮处于非活动状态。
这是完整的评论 Xpath://*[@id="UR288083139"]/div[2]/div/div[3]
到更多按钮: //*[@id="review_288083139"]/div[1]/div[2]/div/div/div[3]/p/span
是否可以有一个 Xpath,以便完整的评论包含在 Import.io 中?
import.io - 运行爬虫得到的数据与训练时不同
在训练我的爬虫抓取 Yelp 页面时,它无需我做任何事情就可以获取所有信息,但是当我运行爬虫时,地址无法识别,也不会记录。
python - 当列表中有更多 URL 时,Import.io 批量提取会变慢
我设置了一个 Import.io 批量提取,可以很好地处理 50 个 URL。它实际上在几秒钟内就可以穿过所有这些。但是,当我尝试提取 40,000 个 URL 时,提取器在前一千个左右的时间里启动得非常快,然后每个增量 URL 都会逐渐变慢。到 5,000 时,每个 URL 大约需要 4-5 秒。
一种似乎可行的解决方案是一次将它们分成 1,000 个 URL 的块,并为每个块进行单独的批量提取。但是,这非常耗时,并且需要在最后将所有数据拼接在一起。
有没有人经历过这种情况,如果有,他们有更优雅的解决方案吗?
谢谢,迈克
php - 通过 cURL 访问 import.io API 时无法在 JSON 结果中获取实际的 html
当我通过复制 api-url 在浏览器中手动访问导入 api 时,我得到一个正确的 json 结果,其中 html 字段也有 html 结果。但是,当我使用 PHP 通过 cURL 访问相同的 api url 时,我只能在以下 json 结果中得到它:
{"name":"my_html","type":"HTML"}
..so 没有实际的 html。
我使用以下函数来 cURL php 中的 API:
我的问题是如何获得实际的 html?顺便说一句,对于文本、日期/时间等其他字段,一切正常。
import.io - 无法抓取加载更多的页面...链接
在某些网页(例如www.flipkart.com)中,当我们搜索某些内容时,我们会得到结果。在页面底部有“查看更多”或“加载更多”之类的链接。当我们点击它时,链接被重定向到同一页面,但显示更多结果。这里这些页面不是无限的。点击“查看更多”或“加载更多”后页面被终止。
如何使用 import.io 桌面应用程序抓取这些页面直到最后?
请帮我解决这个问题
import.io - 收集抓取页面的url
有什么方法可以收集被抓取页面的 URL 吗?作为带有链接的列,或者甚至更好,是否可以将 url 附加到抓取的图像或文本?
crash - Import.io 在 OS X El Capitan 上崩溃
我已将我的 OS X 更新为 El Capitan Public Beta (10.11 Beta (15A215h)),Import.io 现在不再打开。已经尝试擦除并重新安装但没有成功。有谁知道我是否可以做些什么来让它在这个新版本中工作?