0

我不是 Java 的新手,我在大学时学习了 Java。我目前正在做一个从在线网页抓取数据的小程序。我进行谷歌搜索,发现 html 解析器是一种简单的方法。

我的问题是如何设置类路径,并在 TextPad 中导入 html 解析器库?

- - - 我的答案 - - - - - - - - - - - - - - - - - - - - - -----

我找到了解决这个问题的方法。我想我应该把它贴到这里,以防其他人和我有同样的问题。

我不知道这是否是解决这个问题的合适方法。这里是。

我找到了一个链接 http://htmlparser.sourceforge.net/javadoc/doc-files/using.html

我下载了 htmlparser zip 文件,并将 lib 文件夹解压缩到我的 C 盘。我在 CMD 中运行这一行。(我使用的是基于 Windows 的系统。)设置 CLASSPATH=C:\lib\htmlparser.jar;C:\lib\htmllexer.jar;%CLASSPATH% 然后它可以工作。

我猜这一行是为了将新的 .jar 文件添加到旧的类路径中。%CLASSPATH% 表示您的旧类路径。

4

1 回答 1

0

我做了相当多的屏幕抓取,发现 Java 太麻烦了。以我的经验,宁愿使用 Groovy 来筛选数据。你不需要摆弄讨厌的类路径。由于 groovy 是 Java 的 dsl,而且您知道 Java,它将非常简单。您还可以将 Textpad 用作编辑器。

例如:

def slurper = new XmlSlurper()
def htmlParser = slurper.parse("http://stackoverflow.com")

htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
   println it
}

以上代码来自一篇博文:http: //www.maclovin.de/2010/02/robust-html-parsing-the-groovy-way/

于 2012-10-05T04:43:07.517 回答