java - Java/Android HTML 自定义标签解析器

Question

我试图找出一种方法来解析带有自定义标签的 html 文件，格式如下：

[custom tag="id"]

这是我正在使用的文件的示例：

<p>This is an <em>amazing</em> example. </p>
<p>Such amazement, <span>many wow.</span> </p>
<p>Oh look, a wild [custom tag="amaze"] appears.</p>
We need maor embeds <a href="http://youtu.be/F5nLu232KRo"> bro

我想要（在理想的世界中）返回的是元素列表）：

List foundElements = [text, custom tag, text, link, text]

上面列表中的元素包含：

文本：

<p>This is an <em>amazing</em> example. </p>
<p>Such amazement, <span>many wow.</span> </p>
<p>Oh look, a wild [custom tag="amaze"] appears.</p>
We need maor embeds

自定义标签：

[custom tag="amaze"]

关联：

<a href="http://youtu.be/F5nLu232KRo">

文本：

 appears.</p>We need maor embeds

我试过的：

Jsoup
Jsoup 很棒，它非常适合 HTML。问题是我无法定义带有打开“[”和关闭“]”的自定义标签。如我错了请纠正我？
Jericho
和 Jsoup 一样，Jericho 工作得很好……除了定义自定义标签。您需要使用“<”。
Java Regex
这是我真的不想选择的选项。它不可靠，并且存在很多脆弱的字符串操作，尤其是当您与很多正则表达式匹配时。

最后但同样重要的是，我正在寻找一种以性能为导向的解决方案，因为这是在 Android 客户端上完成的。

欢迎所有建议！

java - Java/Android HTML 自定义标签解析器

0 回答 0

Related

Reference