java - 数据提取？

Question

我正在寻找从各种网站提取各种数据的方法。我知道那里有你可以购买的程序，但我正在努力学习，我想自己做。有没有人对一般结构有任何建议，如果有，你会用什么语言编写它。我的第一个想法是 java，但我非常愿意和感激听到其他人的意见。

score 1 · Accepted Answer

您想从网站中提取什么样的数据？有哪些网站？等等。关于你的想法/项目的更多细节会很有帮助

我最近需要研究并尝试一些 html 解析器，以便以更统一的格式获取我需要的一些数据。

我尝试了 JTidy ( http://jtidy.sourceforge.net/ ) 并查看了 Web-Harvest ( http://web-harvest.sourceforge.net/ )。JTidy 不会完全按照我的意愿去做，而且 Web-Harvest 有点矫枉过正。

我最终决定使用 Java + htmlparser ( http://htmlparser.sourceforge.net/ )

只需很少的开发时间就可以得到我需要的东西，并且 htmlparser 允许您形成“过滤器”来搜索 DOM 中的特定事物。

score 0 · Accepted Answer

看看 hadoop（网格）和 solr（爬虫和索引器）。它们都分别支持繁重的处理和高效的索引（用于高效搜索）。

2 回答 2