“import.io”的相关标签问题

0 投票

1 回答

1242 浏览

php - 如何使用 PHP 将多个 Import.io 搜索引擎连接器组合成一个搜索引擎？

我有来自数据提取工具/网站 ( http://import.io ) 的PHP API 代码块，格式如下。我想要一个搜索框，它返回的结果不是一个，而是多个这些“连接器”代码块（它们被称为连接器，因为它们将您的搜索查询与通过 import.io 管道传输的结果连接起来，大概）。

我是 PHP 的菜鸟，所以我不知道该怎么做。

2014-01-06T03:57:53.403

0 投票

1 回答

524 浏览

regex - import.io 爬虫不会填充训练期间填充的文本列（在与流中相同的站点上）

import.io 通过在几页上训练工具从爬取的网站中提取什么来加速网络抓取，看起来很棒。但是我不明白我当前的爬虫有什么问题。我训练它浏览来自匈牙利的选区报告（用于投票记录）。在训练期间，前两个文本字段被正确识别，即使我在抓取期间出现在流中的完全相同的页面上进行训练。同时，最后在爬行过程中将列留空。发生了什么/出了什么问题？谢谢！

爬虫在https://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc

流第一行的示例页面是http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html

保存的流的前两行是：

相反，szavazokor应该Sopron 029从页面说，valasztokerulet应该说GYŐR–MOSON–SOPRON 04。

我没有找到深入研究爬虫在训练后寻找什么模式的选项。

regex xpath web-scraping artificial-intelligence import.io

2014-04-12T19:04:16.977

0 投票

3 回答

5492 浏览

java - Java 运行时环境在运行 .\import.io 时检测到致命错误

我已经按照链接下载 import.io， https: //import.io/download/linux 。正如它所说，我已经提取并进入import.io终端中的文件夹。但是当我尝试运行时./import.io，我收到了这个错误（如下所示）。请建议我解决这个问题。我感谢您的帮助。

我正在使用 Ubuntu 12.04。

Java 版本
java 版本 "1.7.0_51"
Java(TM) SE Runtime Environment (build 1.7.0_51-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.51-b03, 混合模式)

错误

这是日志

编辑

这是我尝试按照评论部分中 Anone Mosh 的建议运行脚本时出现的错误。另请参阅日志。

日志

java web-scraping ubuntu-12.04 import.io

2014-04-25T08:52:04.977

0 投票

2 回答

315 浏览

web-scraping - import.io 爬虫是否服从 robots.txt？

当您运行import.io爬虫时，它是否服从robots.txt文件？

web-scraping web-crawler import.io

2014-05-19T09:39:03.260

0 投票

1 回答

677 浏览

javascript - 格式化和显示从 jQuery 返回的数据？

我正在使用 import.io 来集成和显示我正在抓取的一系列页面。我正在使用 JS，我认为是 jQuery。

代码是这样的：https ://import.io/data/integrate/#js

然而，该代码的结果是一个按钮，它将我带到一个新页面并为我提供数据的原始转储。如何解析数据（它看起来像 JSON？）并在页面上很好地格式化它？例如表格或分层列表？

返回的数据遵循以下格式：

我尝试搜索，但我认为我使用的术语不正确，因此找不到正确的结果。

干杯!

javascript jquery html import.io

2014-05-27T01:10:35.847

0 投票

1 回答

430 浏览

javascript - 基本 import.io html 搜索

因此，如果你们中的任何人有任何刮擦或特别是 import.io 的经验，它会有所帮助，因为 import.io 是我正在使用的......虽然我认为我的问题只是关于 JS 真的......

我真的只想将一个基本的 html 输入连接到 import.io JS 代码，这样我就可以进行自定义搜索

http://jsfiddle.net/LSng3/1/

这是我的出发点......它是基本的工作 import.io JS 示例。我尝试为输入名称添加一个变量并将该变量添加为搜索项，但仅此一项不起作用...

我联系了 import.io 团队，他们说他们将来会尝试制作一个更简单的教程，但现在尝试查看他们拥有的粒子示例，其中包含要搜索的输入，但示例太大，我无法解构只是为了看看输入是如何工作的。

这是我上传到我的服务器的粒子示例，所以你可以看到它虽然有点慢-> http://www.originalengine.com/scrape/

javascript jquery import.io

2014-06-01T02:41:10.167

0 投票

1 回答

1262 浏览

google-sheets - 将数据从 Google 表格流式传输到 BigQuery 以在 Tableau 中进行可视化

我正在尝试创建从 Google 表格到 BigQuery 的定时自动数据上传，以便我可以在 Tableau 中可视化数据。数据来源于 import.io。

基于我已经能够使用 Google Apps Scripts 从 Google Sheets 文件创建一个 .csv，并将 .csv 文件一次性上传到 BigQuery 。但是，这不能用作重复的解决方案，因为 BigQuery 加载脚本需要 .csv 文件的静态 URL（并且每个 .csv 下载文件都有一个唯一的 URL）。

我相信来自谷歌表格的流数据，或者直接来自但研究过谷歌 BigQuery Analytics的流数据还不能解决这个问题。

将数据从 Google 表格流式传输到 BigQuery 需要哪些步骤？

google-sheets google-bigquery streaming import.io

2014-06-03T17:23:15.433

0 投票

1 回答

2711 浏览

php - 从 Import.io 导入 MySQL 数据库中的 JSON

我正在尝试使用 PHP 将 JSON 提要中的数据导入 MySQL 数据库。

我有下面的代码，但没有得到任何地方。

我一直在获取，Connected to Database但没有从 JSON 数据中提取任何内容。

JSON 数据是使用 import.io 从提要创建的。

任何帮助表示赞赏

JSON数据在这里

php mysql json import.io

2014-07-15T12:01:34.563

0 投票

3 回答

1277 浏览

regex - 正则表达式捕获空格之间

我有以下字符串：

而且我想在“选择尺寸”之后立即提取尺寸，基本上是通过在一侧或两侧捕获不是“选择尺寸”的所有内容。这必须由正则表达式单独完成，因为 ImportIO 不支持使用方法。

这是我到目前为止所拥有的：

提前致谢！

regex import.io

2014-07-27T15:18:34.610

0 投票

1 回答

2108 浏览

javascript - 从 Javascript onclick() 函数中抓取关于抓取和信息的建议

我终于找到了关于这个主题的新手帮助的帖子，但我无法解决这个问题，部分原因是我是编程的新手:)

主题是：新手：如何克服Javascript“onclick”按钮来抓取网页？

我有一个类似的问题。我想抓取的网站有很多零件的大量信息，但我只想抓取某些零件信息（公司、零件编号等）。我有两个问题：

如何在不输入搜索信息的情况下从本站获取此类信息？使用爬虫？
零件号在页面上有大部分信息，但在页面上有 Javascript 'onclick()' 功能，当它被点击时会打开一个小窗口，显示除此之外我还想抓取的信息。如何在此附加窗口中抓取信息？

我正在使用 import.io，但有人建议我切换到 Selenium 和 PhantomJS。我会欢迎其他工具的其他建议，而不是太复杂（或提供的说明，这太棒了！）。如果有人可以帮助我克服这个问题或提供说明，我将不胜感激。谢谢你。

javascript python selenium web-scraping import.io

2014-09-08T06:50:26.403

问题标签 [import.io]

Reference