我正在寻找从各种网站提取各种数据的方法。我知道那里有你可以购买的程序,但我正在努力学习,我想自己做。有没有人对一般结构有任何建议,如果有,你会用什么语言编写它。我的第一个想法是 java,但我非常愿意和感激听到其他人的意见。
问问题
1234 次
2 回答
1
您想从网站中提取什么样的数据?有哪些网站?等等。关于你的想法/项目的更多细节会很有帮助
我最近需要研究并尝试一些 html 解析器,以便以更统一的格式获取我需要的一些数据。
我尝试了 JTidy ( http://jtidy.sourceforge.net/ ) 并查看了 Web-Harvest ( http://web-harvest.sourceforge.net/ )。JTidy 不会完全按照我的意愿去做,而且 Web-Harvest 有点矫枉过正。
我最终决定使用 Java + htmlparser ( http://htmlparser.sourceforge.net/ )
只需很少的开发时间就可以得到我需要的东西,并且 htmlparser 允许您形成“过滤器”来搜索 DOM 中的特定事物。
于 2010-05-17T13:31:44.913 回答
0
看看 hadoop(网格)和 solr(爬虫和索引器)。它们都分别支持繁重的处理和高效的索引(用于高效搜索)。
于 2010-05-17T13:42:23.773 回答