1

作为工作的一部分,我必须整理此页面并收集有关学校管理员、地址和每所学校所在县的信息。我在 java 中做了相当多的工作,所以我想如果我要尝试做一些事情来做到这一点,它应该是在 java 中。

但是我以前没有做过这样的事情,并且对我应该从哪里开始感到有点困惑。如果有人可以帮助我了解我需要使用哪些类,并提供一些关于如何查看 HTML 代码以对所有这些进行排序的信息,那就太好了。谢谢。

4

3 回答 3

4

您需要实现一个刮板,即从 HTML 中刮取数据的应用程序。

我会先研究一个像样的爬虫库,比如 jsoup ( http://jsoup.org/ ),看看你是否可以用它来完成这项工作。

从本质上讲,您最终会得到以下结果:

Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");

继续根据需要应用选择规则来收集您需要的数据。

于 2013-07-10T13:10:10.850 回答
0

您可以使用 java.util.regex ;正则表达式有用且易于使用

于 2013-07-10T13:15:26.537 回答
0

Selenium它可以很好地完成你想做的事情。我用它来开发一个带有自动化测试的应用程序,但它也对你有用。

于 2013-07-10T13:49:09.153 回答