问题标签 [import.io]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
import.io - 如何抓取链接在被点击之前隐藏的页面
我想获取需要单击其链接的页面的数据。
我尝试使用爬虫和提取器捕获链接字段,并将列验证设置为链接和 html。但它不返回实际链接。只有在我单击链接后,才会打开一个弹出窗口,从那里我想要数据。每个登录页面都有大约 50 个这样的链接。我想抓取这些链接中的每一个。
我用连接器尝试了这个,但事情变得复杂,因为大约有 90k 查询。此外,连接器不会返回有用的页面 url。
web-crawler - 使用 import.io 选择多个下拉菜单
我正在尝试使用import.io来爬取电子商务网站并收集各种定价信息。但是,每种产品的价格是由用户设置的众多下拉菜单决定的。
网站链接:http: //www.saxoprint.co.uk/shop/brochures
我需要爬虫浏览所有不同的选项并收集与该产品相关的所有可能的定价组合。我最初尝试使用 Chrome 的网络爬虫插件,但发现此扩展不支持一个页面内的多个点击操作。
我认为 import.io 可以做到这一点,但我可能错了。有谁知道如何收集这些数据,即使它是 import.io 的替代品?
谢谢...
web-crawler - 数据爬虫或其他
我正在寻找一些我不知道该怎么做的东西。我对爬行、报废等方面没有深入的了解,但我相信我正在寻找的技术就是这些。
- 我有一个大约 100 个网站的列表,我想经常监控这些网站。至少每 3 或 4 天一次。在这些网站中,我会寻找一些符合逻辑的匹配项,例如:
文本包含“ABC”且不包含“BCZ”或文本包含“XYZ”且不包含“ATM”等等
该工具必须查看以下网站:
- 网页
- 文档文件
- DOCX 文件
- XLS 文件
- XLSX 文件
- TXT 文件
- RTF 文件
- PDF 文件
- RAR 和 ZIP 文件
匹配必须是增量的(我只想要最近 X 天的匹配)
最重要的是,在这 100 个网站中,大约有 40 个需要用户身份验证(我已经这样做了)。
每当有比赛时,我想下载:
- 文件
- 关联
- 约会时间
- 比赛报告
我一直在玩诸如 import.io 之类的工具,但我还没有弄清楚如何正确地做到这一点!
有谁知道我在寻找哪种技术?谁(什么样的专家,程序员)可以为我构建这个?对于了解数据爬取的程序员来说构建它是否太难了?
对不起,很长的帖子
xpath - Import.io、xpath 表达式、bgcolor 属性
我正在尝试训练 import.io 从表中获取数据,其中一行的格式为 bgcolor #FFFFFF。我正在尝试的方法是 Xpath。
在下面的示例中,它是我想要获取的值“11”。
代码片段:<td bgcolor="#FFFFFF" align="RIGHT" class="txtBlackVerdanaBold10">11</td>
我努力了 :
Import.io 在这两种情况下都返回“xpath 无效”。
有任何想法吗?
xpath - 使用 import.io 进行网络爬取
我正在尝试使用 import.io 工具抓取以下网站https://goo.gl/THqDhD 。我使用连接器工具解析特定查询的整个搜索结果(并包括分页),并成功选择了搜索结果中的所有行,但无法选择项目的图像框(作为列)
import.io 包含所选的手动 xpath 覆盖,因此我尝试使用以下 xpath 在搜索结果中选择图像:
这应该代表表格的列,但我遇到了以下问题
这里的结果是之前选择的行,但我检查了项目框并确保选择在里面。请问有什么帮助吗?
import.io - 非标准分页系统的import.io爬虫
我正在尝试为此站点http://theaccelblog.squarespace.com/构建一个 import.io 爬虫, 但是当我单击“下一步”进入下一页进行训练时,由于系统原因,它会将我带回第一页正在使用的分页。非常感谢有关如何让 import.io 爬虫爬取这些页面的任何建议。正如 import.io 网站上所建议的那样,我试图在与服务器交换的数据包中找到分页系统,但没有成功。谢谢,如果你能帮忙。JRH
import.io - 使用 import.io 递归爬取
我想抓取页面内的所有链接、子链接等(递归)。
import.io 中有递归选项吗?如果是这样,我该如何使用它?
xpath - 使用 XPath 根据特定条件获取找到的元素之前的第一个元素
使用 import.io,给出以下代码片段,在成功提取name
和time
列之后,如何.heading
使用 XPath 提取最近的前面元素作为第三列?
javascript - 在页面上打开模式后使用 Xpath 选择器?
请查看其中一个 Google Play 应用程序,这些应用程序在其页面的页脚中有一些名为“权限”的内容。当您单击“查看详细信息”时,会出现一个模式弹出窗口。我想选择该模式的内容。我怎样才能做到这一点 ?我试过这段代码:
但是什么也没发生,这个 xpath 不起作用。我还使用了 Javascript 代码:
但由于我使用的是 Windows 应用程序(Import.io 桌面应用程序),它只接受正则表达式和 xpath 选择器。那么如何选择模态的内容呢?
dll - 抓取数据时桌面应用程序崩溃?
我正在尝试使用 Import.io 桌面应用程序抓取网站的数据,我在 windows server 2008 r2 64bit,32 GB Ram & intel 4770 i7 CPU 上运行该软件,但是当它在抓取时,突然出现一个错误,询问我重新启动程序,错误描述包含:
我试图下载一个新的 mozalloc.dll 并用新版本替换旧的。在这种情况下,Import.io 应用程序使用 xulrunner 版本 24,首先我用默认 import.io 的 mozalloc.dll 文件替换了 mozalloc.dll 版本 42(最新版本):
但在那之后,程序界面没有出现。当我打开 import.io 时,它确实在任务管理器中打开,但 windows 没有显示程序的界面。我还下载了最新的 xulrunner 版本并替换了该文件夹中的所有文件,同样的事情又发生了。