2

我最近发现了 RapidMiner,我对它的功能感到非常兴奋。但是,我仍然不确定该程序是否可以帮助我满足我的特定需求。我希望程序从我用另一个程序生成的 URL 列表中抓取 xpath 匹配项。(它比 RapidMiner 中的 'crawl web' 运营商有更多选择)

我看过 Neil Mcguigan 的以下教程:http: //vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html。但是我尝试抓取的网站有数千页,我不想将它们全部存储在我的电脑上。而且网络爬虫只是缺少关键功能,所以我无法将它用于我的目的。有没有办法让它读取 URL,并从每个 URL 中抓取 xpath?

我还查看了从页面中提取 html 的其他工具,但由于我不是程序员,所以我无法弄清楚它们是如何工作(甚至是安装)的。另一方面,Rapidminer 易于安装,操作员的描述很有意义,但我无法以正确的顺序连接它们。

我需要一些投入来保持动力。我想知道我可以使用什么运算符来代替“从文件中处理文档”。我查看了“从网络处理文档”,但它没有输入,它仍然需要爬网。任何帮助深表感谢。

期待您的回复。

4

2 回答 2

2

使用 RapidMiner 在内部不保存 html 页面的网页抓取是一个两步过程:

第 1 步按照 Neil McGuigan 的http://vancouverdata.blogspot.com/2011/04/rapidminer-web-crawling-rapid-miner-web.html上的视频,有以下区别:

  • 而不是Crawl Web操作员使用Process Documents from Web 操作员。将没有指定输出目录的选项,因为结果将被加载到 ExampleSet 中。

ExampleSet 将包含与爬取规则匹配的链接。

从 Web 主处理文档

第 2 步按照http://vancouverdata.blogspot.com/2011/04/web-scraping-rapidminer-xpath-web.html上的视频,但仅从 7:40 开始,但有以下区别:

  • 提取信息子流程放在之前创建的从 Web 处理文档中

ExampleSet 将包含与 XPath 查询匹配的链接和属性。

提取信息子

于 2012-11-23T16:43:53.587 回答
0

我和你有同样的问题,也许 RapidMiner 论坛的这些帖子会对你有所帮助: http ://rapid-i.com/rapidforum/index.php/topic,2753.0.html 和 http://rapid-i .com/rapidforum/index.php?topic=3851.0.html

再见 ;)

于 2012-05-02T06:46:23.660 回答