问题标签 [import.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
609 浏览

import.io - Import.io 简单脚本 javascript

我正在尝试将简单的 import.io 与 JavaScript(示例网站)结合使用,但脚本不起作用。你能帮助我吗?

0 投票
2 回答
3178 浏览

import.io - 如何使用 import.io 在登录页面后面提取数据

我需要爬取登录页面后面的一些数据。为了能够废弃它,我需要一个能够登录然后抓取它背后的页面的工具。是否可以在 import.io 后面执行此操作?

0 投票
1 回答
68 浏览

javascript - Import.io (web-crawler) 不断查询而不输出

Import.io 的示例脚本在使用表单进行查询后不会显示任何结果。一切都显示在http://loop.netai.net/上。用户应该能够提供输入,例如 intel i7,然后脚本应该查询并在表格中显示结果。但是,我什至不知道它是否连接到 Import.io 上的数据表。(按 CTRL + U 在网站上显示脚本)。

有谁知道是什么导致它无法显示结果?

0 投票
1 回答
322 浏览

java - import.io 不加载任何网页

当我导入“ import.io ”时,它不会加载任何网页。我使用 Windows 8.1 / Win 64 并且我有 Java 版本 8 Update 45。当程序退出时,我得到以下“错误协议”:

任何人都可以给我一个关于如何解决这个问题的提示吗?

0 投票
2 回答
96 浏览

html - 如何在 import.io Connect Extract 中包含 CSS

使用 import.io 连接器,我能够从源网站中提取一段 html。此结果以“html”类型返回。结果是单个数据表,其样式在正文 html 中定义但未提取。这导致提取的 html 段以 NO 样式显示并且看起来很糟糕。

有没有办法包括提取 CSS 样式,即源 html 中包含的多个 css href,比如

同时还要包含如下动态css:

...在连接器提取中,以便可以正确设置和显示生成的 html 段?

提前致谢!

0 投票
1 回答
181 浏览

mysql - 从谷歌图片中提取图片

我正在用电影制作数据库,但我不知道如何从谷歌图像中保存图像并用某些电影对它们进行排序。
在数据库中,我有 17000 部电影,我使用 import.io 从 IMDB 抓取它们,但图像太小。
请给点建议好吗?

0 投票
0 回答
76 浏览

import.io - 使用 import.io 的经过身份验证的连接器,额外的屏幕不起作用

我正在尝试使用 import.io 创建经过身份验证的网站登录,但在进入用户名和密码屏幕之前,我必须在另一个屏幕中输入 ID 号。我已经记录了所有的动作,但是当我停止记录时,我得到“你没有输入用户名和密码”,并且不会让我继续下去。如果我输入 ID 号并导航到用户名和密码屏幕然后开始录制,import.io 会毫无帮助地重新加载页面,这会将我带回 ID 号屏幕。

如何让 import.io 接受 ID、用户名和密码作为登录凭据,或者如何在我点击记录时阻止 import.io 重新加载页面?

0 投票
1 回答
170 浏览

import.io - API 忽略我在 POST 上的输入

我通过 API POST 将此正文发送到我使用应用程序创建的提取器。

无论我输入什么 URL,它总是从同一页面返回结果(我认为它一定是我训练它的那个)。我可以把任何字符串放在那里,它只是完全忽略它。

GET 工作正常,但我更愿意使用 POST。

任何人都知道为什么这不起作用?

0 投票
0 回答
121 浏览

javascript - 将 import.io 搜索结果解析为表

已经设置了几个我想搜索的站点,在 javascript 中创建的页面允许我输入一个值并搜索多个连接器,但希望找到更好的方式来显示结果。目前,只需获得由换行符分隔的结果。理想情况下,希望表格中的结果带有可点击的链接和添加的源数据库的名称,就像在 Import.io 程序本身中运行搜索时看到的那样。当前代码如下。任何帮助将非常感激!

0 投票
1 回答
260 浏览

import.io - 抓取网站时出现ServerErrorException

我正在使用 API 对网站进行全面爬网,我得到了很多:

{“errorType”:“ServerErrorException”,“error”:“ServerErrorException:服务器错误。(HTTP 500)”}

我也收到超时响应并且实际的 http 失败:StatusCode: 504, ReasonPhrase: 'GATEWAY_TIMEOUT'

我正在浏览我正在同时抓取的网站,它似乎仍然快速且响应迅速,没有减速。

我从我的代码中删除了多线程并同步运行,这会停止 500 个错误,但它仍然会产生很多超时(并且需要很长时间)。

我的多线程运行的并发连接少于 100 个。是不是太多了?我想把它推到1000+。我需要在请求之间添加一些延迟吗?