0

如何解析网站中的 Java 特定文本?例如,如果网站在他们的网页中有这个:<meta property='ABC' content="DEF" />. 我想搜索“ABC”并找到“DEF”。我怎样才能制作这样的功能?我没有使用 html 的经验,也没有解析信息。

谢谢

4

2 回答 2

0

我不会做很多Java,但这听起来像是一个使用正则表达式的好地方。对于像这样的简单文本搜索,它非常简单。要搜索“ABC”,只需使用正则表达式ABC。您可以使用类似的东西搜索“ABC”或“DEF”的实例ABC|DEF。我不确定你到底想要什么,但如果你澄清我可以提供更多帮助。

Java 有一些类来评估这些表达式,大多数编程语言也是如此。

import java.util.regex.Pattern;

import java.util.regex.Matcher;

有关如何使用这些的信息,请参阅此链接它提供了您需要的几乎所有信息,包括用于理解正则表达式的信息。

要详细了解正则表达式语法,请转到此处

还有其他方法可以搜索字符串以查找模式,但正则表达式在所有语言中都是统一的,并且随着您寻找的模式变得越来越复杂,正则表达式变得越来越有用。

于 2013-08-26T20:07:37.647 回答
0

我喜欢JSOUP,因为它添加了很多不错的功能......

JSoup 会处理您的大量文档拉取,然后如果您想拉取信息,您可以使用 CSS 选择器来访问页面中的元素。

至于对元标记的支持,我无法编写任何测试代码,但这个关于堆栈溢出的示例对此进行了一些讨论。

于 2013-08-26T19:56:21.217 回答