作为工作的一部分,我必须整理此页面并收集有关学校管理员、地址和每所学校所在县的信息。我在 java 中做了相当多的工作,所以我想如果我要尝试做一些事情来做到这一点,它应该是在 java 中。
但是我以前没有做过这样的事情,并且对我应该从哪里开始感到有点困惑。如果有人可以帮助我了解我需要使用哪些类,并提供一些关于如何查看 HTML 代码以对所有这些进行排序的信息,那就太好了。谢谢。
作为工作的一部分,我必须整理此页面并收集有关学校管理员、地址和每所学校所在县的信息。我在 java 中做了相当多的工作,所以我想如果我要尝试做一些事情来做到这一点,它应该是在 java 中。
但是我以前没有做过这样的事情,并且对我应该从哪里开始感到有点困惑。如果有人可以帮助我了解我需要使用哪些类,并提供一些关于如何查看 HTML 代码以对所有这些进行排序的信息,那就太好了。谢谢。
您需要实现一个刮板,即从 HTML 中刮取数据的应用程序。
我会先研究一个像样的爬虫库,比如 jsoup ( http://jsoup.org/ ),看看你是否可以用它来完成这项工作。
从本质上讲,您最终会得到以下结果:
Document doc = Jsoup.connect("http://www.ncpublicschools.org/...").get();
Elements schools = doc.select("div.indenter p span.colorText2 a");
继续根据需要应用选择规则来收集您需要的数据。
您可以使用 java.util.regex ;正则表达式有用且易于使用
Selenium它可以很好地完成你想做的事情。我用它来开发一个带有自动化测试的应用程序,但它也对你有用。