问题标签 [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何使用 PHP 将多个 Import.io 搜索引擎连接器组合成一个搜索引擎?
我有来自数据提取工具/网站 ( http://import.io ) 的PHP API 代码块,格式如下。我想要一个搜索框,它返回的结果不是一个,而是多个这些“连接器”代码块(它们被称为连接器,因为它们将您的搜索查询与通过 import.io 管道传输的结果连接起来,大概)。
我是 PHP 的菜鸟,所以我不知道该怎么做。
regex - import.io 爬虫不会填充训练期间填充的文本列(在与流中相同的站点上)
import.io 通过在几页上训练工具从爬取的网站中提取什么来加速网络抓取,看起来很棒。但是我不明白我当前的爬虫有什么问题。我训练它浏览来自匈牙利的选区报告(用于投票记录)。在训练期间,前两个文本字段被正确识别,即使我在抓取期间出现在流中的完全相同的页面上进行训练。同时,最后在爬行过程中将列留空。发生了什么/出了什么问题?谢谢!
爬虫在https://import.io/data/mine/?id=772c725f-6048-4861-9f73-03ae30d8f7cc
流第一行的示例页面是http://valasztas.hu/dyn/pv14/szavossz/hu/M08/T150/szkjkv_029.html
保存的流的前两行是:
相反,szavazokor
应该Sopron 029
从页面说,valasztokerulet
应该说GYŐR–MOSON–SOPRON 04
。
我没有找到深入研究爬虫在训练后寻找什么模式的选项。
java - Java 运行时环境在运行 .\import.io 时检测到致命错误
我已经按照链接下载 import.io,
https: //import.io/download/linux 。正如它所说,我已经提取并进入import.io
终端中的文件夹。但是当我尝试运行时./import.io
,我收到了这个错误(如下所示)。请建议我解决这个问题。我感谢您的帮助。
我正在使用 Ubuntu 12.04。
Java 版本
java 版本 "1.7.0_51"
Java(TM) SE Runtime Environment (build 1.7.0_51-b13)
Java HotSpot(TM) 64-Bit Server VM (build 24.51-b03, 混合模式)
错误
这是日志
编辑
这是我尝试按照评论部分中 Anone Mosh 的建议运行脚本时出现的错误。另请参阅日志。
日志
web-scraping - import.io 爬虫是否服从 robots.txt?
当您运行import.io爬虫时,它是否服从robots.txt
文件?
javascript - 格式化和显示从 jQuery 返回的数据?
我正在使用 import.io 来集成和显示我正在抓取的一系列页面。我正在使用 JS,我认为是 jQuery。
代码是这样的:https ://import.io/data/integrate/#js
然而,该代码的结果是一个按钮,它将我带到一个新页面并为我提供数据的原始转储。如何解析数据(它看起来像 JSON?)并在页面上很好地格式化它?例如表格或分层列表?
返回的数据遵循以下格式:
我尝试搜索,但我认为我使用的术语不正确,因此找不到正确的结果。
干杯!
javascript - 基本 import.io html 搜索
因此,如果你们中的任何人有任何刮擦或特别是 import.io 的经验,它会有所帮助,因为 import.io 是我正在使用的......虽然我认为我的问题只是关于 JS 真的......
我真的只想将一个基本的 html 输入连接到 import.io JS 代码,这样我就可以进行自定义搜索
这是我的出发点......它是基本的工作 import.io JS 示例。我尝试为输入名称添加一个变量并将该变量添加为搜索项,但仅此一项不起作用...
我联系了 import.io 团队,他们说他们将来会尝试制作一个更简单的教程,但现在尝试查看他们拥有的粒子示例,其中包含要搜索的输入,但示例太大,我无法解构只是为了看看输入是如何工作的。
这是我上传到我的服务器的粒子示例,所以你可以看到它虽然有点慢-> http://www.originalengine.com/scrape/
google-sheets - 将数据从 Google 表格流式传输到 BigQuery 以在 Tableau 中进行可视化
我正在尝试创建从 Google 表格到 BigQuery 的定时自动数据上传,以便我可以在 Tableau 中可视化数据。数据来源于 import.io。
基于我已经能够使用 Google Apps Scripts 从 Google Sheets 文件创建一个 .csv,并将 .csv 文件一次性上传到 BigQuery 。但是,这不能用作重复的解决方案,因为 BigQuery 加载脚本需要 .csv 文件的静态 URL(并且每个 .csv 下载文件都有一个唯一的 URL)。
我相信来自谷歌表格的流数据,或者直接来自但研究过谷歌 BigQuery Analytics的流数据还不能解决这个问题。
将数据从 Google 表格流式传输到 BigQuery 需要哪些步骤?
php - 从 Import.io 导入 MySQL 数据库中的 JSON
我正在尝试使用 PHP 将 JSON 提要中的数据导入 MySQL 数据库。
我有下面的代码,但没有得到任何地方。
我一直在获取,Connected to Database
但没有从 JSON 数据中提取任何内容。
JSON 数据是使用 import.io 从提要创建的。
任何帮助表示赞赏
JSON数据在这里
regex - 正则表达式捕获空格之间
我有以下字符串:
而且我想在“选择尺寸”之后立即提取尺寸,基本上是通过在一侧或两侧捕获不是“选择尺寸”的所有内容。这必须由正则表达式单独完成,因为 ImportIO 不支持使用方法。
这是我到目前为止所拥有的:
提前致谢!
javascript - 从 Javascript onclick() 函数中抓取关于抓取和信息的建议
我终于找到了关于这个主题的新手帮助的帖子,但我无法解决这个问题,部分原因是我是编程的新手:)
主题是: 新手:如何克服Javascript“onclick”按钮来抓取网页?
我有一个类似的问题。我想抓取的网站有很多零件的大量信息,但我只想抓取某些零件信息(公司、零件编号等)。我有两个问题:
如何在不输入搜索信息的情况下从本站获取此类信息?使用爬虫?
零件号在页面上有大部分信息,但在页面上有 Javascript 'onclick()' 功能,当它被点击时会打开一个小窗口,显示除此之外我还想抓取的信息。如何在此附加窗口中抓取信息?
我正在使用 import.io,但有人建议我切换到 Selenium 和 PhantomJS。我会欢迎其他工具的其他建议,而不是太复杂(或提供的说明,这太棒了!)。如果有人可以帮助我克服这个问题或提供说明,我将不胜感激。谢谢你。