java - 使用 Java 库从 ODT 文档中提取字段

Question

我需要使用 Java 库（或代码）从 ODT 文档的内容中提取字段标记。我知道 odt 是某种压缩文件，它的内容包含在 content.xml 文件中。当然我可以提取文件，打开 content.xml 并解析它，但我相信存在一些更高级别的代码。仅作为示例，内容如下所示：

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

我想将字段提取为 ${name} 和 $nome。

我知道 Apache Tika 可以用于此，但我还没有发现实际显示字段提取的示例。我相信这是因为我使用的字段是非结构化文本而不是输入字段标签。

在此先感谢，丹尼尔

score 2 · Accepted Answer

好吧，以防万一有人感兴趣，我们最终使用 Apache Tika 从 odt 获取内容，并使用以下正则表达式对其进行了解析：

\$\{[\w\-\.]*\}

java - 使用 Java 库从 ODT 文档中提取字段

1 回答 1

Related

Reference