java - 从 HTML 文件中收集数据

Question

作为工作的一部分，我必须整理此页面并收集有关学校管理员、地址和每所学校所在县的信息。我在 java 中做了相当多的工作，所以我想如果我要尝试做一些事情来做到这一点，它应该是在 java 中。

但是我以前没有做过这样的事情，并且对我应该从哪里开始感到有点困惑。如果有人可以帮助我了解我需要使用哪些类，并提供一些关于如何查看 HTML 代码以对所有这些进行排序的信息，那就太好了。谢谢。

score 4 · Accepted Answer

您需要实现一个刮板，即从 HTML 中刮取数据的应用程序。

我会先研究一个像样的爬虫库，比如 jsoup ( http://jsoup.org/ )，看看你是否可以用它来完成这项工作。

从本质上讲，您最终会得到以下结果：

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

继续根据需要应用选择规则来收集您需要的数据。

score 0 · Accepted Answer

0

您可以使用 java.util.regex ；正则表达式有用且易于使用

于 2013-07-10T13:15:26.537 回答

score 0 · Accepted Answer

Selenium它可以很好地完成你想做的事情。我用它来开发一个带有自动化测试的应用程序，但它也对你有用。

3 回答 3