问题标签 [import.io]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
183 浏览

regex - Import.io -“从哪里提取数据”优化的 URL 模式

使用 Import.io 进行爬网时,我们有高级选项来设置 URL 模式以确定页面是否应该提取数据。

我习惯使用正则表达式,所以我很难使用 Import.io URL 模式。

正则表达式中的模式是

http://www.site.com/。[0-9]+.html。

如何使用 Import.io 模式做到这一点?

我尝试了以下方法,但没有奏效:

www.site.com/{any}{num}.html

一些应该提取的例子:

  • www.site.com/foo/bar/foo234.html
  • www.site.com/bla890.html
  • www.site.com/bar/bar/bar/bar/bar/bar/aaa123.html

这些是 Import.io 表示法:

  • {any} - 任何东西(包括无){num} - 一个数字,例如 8767
  • {alpha} - az 个字符,例如 Dog {alpha-num} - alpha 或 num,例如 435h5k </li>
  • {words-num} - 包含由 -、_ 或 + 分隔的数字的单词,例如 this-is_a+2nd example </li>
  • {not-slash} - 除斜线之外的任何内容 </li>
  • {uuid} - 一个 UUID,例如 439a110f-bba1-46a5-befd-1f32cfb63dc8 </li>
  • {query-string} - 查询字符串,例如 ?a=1&b=2%c=3
  • {query-params} - 部分查询字符串,例如 a=1&b=2 </li>
  • {ref} - 引用,也称为锚点,例如 #foo $ - 匹配 URL 的结尾

更多细节: http: //support.import.io/knowledgebase/articles/247574-advanced-crawler-options

谢谢!

0 投票
1 回答
64 浏览

import.io - 货币检测默认为带有 $ 符号的美元

我可以选择带有货币列的货币,但值始终以美元为单位,是否可以更改货币 iso 代码?

例如 $39.99 这是加元,但总是显示为 39.99 美元。

我看到您可以使用文本,但后来我被 $ 符号卡住了。

现在我不得不使用正则表达式来删除 $

0 投票
1 回答
78 浏览

import.io - 在 import.io 上提取时指定单独的行

必须有一个我忽略的非常简单的解决方案 - 我已将 import.io 设置为从此处的维基百科页面中提取,并且我无法指定按字母顺序排列的部分中的每个条目在提取时位于单独的行上 - 训练时选择一切都在同一行,所以它不可用..有什么想法吗?

0 投票
0 回答
53 浏览

import.io - 按下停止后,import.io 连接器不执行任何操作?

当我在记录连接器后创建 import.io 连接器时,我按下停止并且没有任何反应。它只是让我回到第一步。

有没有我丢失的集合或者我应该如何修复它?

我在 YouTube 上观看了网络研讨会“The import io Crawler”,并逐步进行了操作。

0 投票
1 回答
1170 浏览

web-scraping - 如何使用 Import.io 抓取多个页面

我正在尝试从网站http://www.cityoflondon.gov.uk/events/抓取事件列表,但是当使用 import.io 抓取它时,我只能提取第一页。

我怎样才能一次提取所有页面?

0 投票
1 回答
82 浏览

import.io - 爬虫从最后挂了几个url

无论我粘贴 2000 个 url、1000、500 还是任何爬虫都能完美地从批量 url 返回数据但然后从末尾停止少数 url 并挂起....因为没有取消/停止按钮我必须退出程序。

示例,粘贴 250 个 url - 在 247 处停止,粘贴 2000 个 url - 在 1986 处停止

0 投票
1 回答
79 浏览

import.io - 新版本 import.io 无法创建 API

我有许多经过身份验证和未经过身份验证的 API,它们是在早期版本的 import.io 中创建的。

使用新的 Windows 应用程序,我无法创建 API,或者至少选择一个。该教程显示了一大堆选项,但我只得到“配置”和“导出”。“配置”只为我提供了单个 URL、批量提取和来自另一个 API 的 URL 的选项。但是没有链接可以给我API地址。

同样,EXPORT 仅提供“USE IN DATA SET”。

我请求他们的支持,但得到了这个:

嗨格伦,

感谢您伸出援手。

您可能已经注意到,我们对界面进行了一些更改。

我们将其移至导出选项卡(配置旁边)并将其命名为简单 API 集成。

如果您有任何问题,请告诉我。

谢谢,

但是当我回答说我没有那个选项时,我没有得到任何答复。

我究竟做错了什么?

格伦。

0 投票
1 回答
325 浏览

api - 使用 Authenticated Connector 批量提取 (import.io)

我是 import.io 和这个论坛的新手。

我正在尝试从目标数据库中提取信息,我必须在其中运行带有输入的查询。在支持的帮助下,我成功创建了经过身份验证的连接器。由于必须在 UI 中手动输入多个输入,它才能正确获取数据。

问题是我有超过 10,000 个输入要运行,所以它必须是批量提取的形式。import.io 支持人员告诉我,他们的 UI 中没有此功能,并建议使用此处发布的 API:http ://api.docs.import.io/#!/Query_Methods/queryPost 。

任何人都可以引导我使用它吗?我只需要一个工作脚本,它将多个字符串行作为输入并运行我构建的连接器并发布结果。我对这种技术不是很熟悉,但我很愿意学习。

提前谢谢大家!

0 投票
1 回答
251 浏览

regex - 如何自动排除/删除 import.io 字段提取中的文本

我在 import.io 中使用正则表达式,仅在字段以正确工作的某个字符串开头时才匹配字段。因此,例如,我使用以下内容来匹配以“测试测试”开头的项目: ^(testing\stesting\s.+

它有什么办法让它返回不包括这个字符串的值(除了正则表达式之外可能还使用xpath?)所以如果字段值是“testing testing 1234”那么我希望它只返回“1234”而没有“testing testing “ 在前面?

显然我可以在之后手动执行此操作,但想尝试找到一种作为导出的一部分自动执行此操作的方法?

谢谢,

戴夫

0 投票
1 回答
100 浏览

import.io - 运行 import.io 时出现 IOException: Premature EOF

我使用 import.io 创建了一个爬虫,我遇到的第一个问题是 import.io 在单击“检测最佳设置”后无法识别网页上的数据。它询问“您要提取的数据是否仍在浏览器中?” 由于数据未突出显示,因此我单击“否”。即使这样,数据仍然没有突出显示。提取器也会发生同样的事情。我继续处理这个问题,当它询问“您要提取的数据是否仍在浏览器中?”时单击是。即使没有突出显示数据。我继续构建爬虫,它工作正常。我在页面深度为 0 的起始 URL 中放置了大约 15K 的 URL。

发生的情况是,在 15K 页面中,大约 10% 的页面没有被抓取。我检查了日志文件,它显示IOException: Premature EOF了未抓取的行。

如果我在浏览器中手动转到该页面,则该页面加载正常,并且与我训练爬虫时使用的格式相同。我什至尝试训练显示此错误的页面,但这无济于事。

我怎样才能绕过这个错误?