我想从以下<a: href>
之间提取字符串:</a: href>
<a: href> https://0.0.0.1/abcd/openthis.pdf </a: href>
使用 StringTokenizer、拆分或扫描仪。
我正在尝试将 StringTokenizer 与<a: href>
和</a: href>
作为分隔符一起使用,但它不起作用。我试图逃避<
,>
和:
,但这似乎不是问题。我的猜测是它不会接受单词或短语作为分隔符。
我想从以下<a: href>
之间提取字符串:</a: href>
<a: href> https://0.0.0.1/abcd/openthis.pdf </a: href>
使用 StringTokenizer、拆分或扫描仪。
我正在尝试将 StringTokenizer 与<a: href>
和</a: href>
作为分隔符一起使用,但它不起作用。我试图逃避<
,>
和:
,但这似乎不是问题。我的猜测是它不会接受单词或短语作为分隔符。
你可以试试正则表达式。
试试这个正则表达式 >\s+(.*?)\s+<'
。
请记住一件事,正则表达式解决方案仅在您提取此字符串时才有效
< a: href > https://0.0.0.1/abcd/openthis.pdf < /a: href>
一般用于html parsers
从相应的html代码中提取文本。
我会试试htmlcleaner。
HTMLCleaner 是一个 Java 库,用于安全地将 Web 上的任何 HTML 解析和转换为格式良好的 XML。它被设计成小巧、快速、灵活和独立。HtmlCleaner 可用于 java 代码,作为命令行工具或 Ant 任务。解析的结果是轻量级的文档对象模型,可以轻松地转换为 DOM 或 JDom 等标准,或以各种方式(紧凑、漂亮打印等)序列化为 XML 输出。
您可以使用XPath
htmlcleaner 来获取 xml/html 标签中的内容。这是一个很好的
示例Xpath Example