我需要用 Lucene 索引一些 xml 文档,但在此之前,我需要解析这些 XML 并在它们的标签中提取一些信息。
XML 如下所示:
<?xml version="1.0" encoding="UTF-8"?>
<tt xml:lang="es" xmlns="http://www.w3.org/2006/04/ttaf1" xmlns:tts="http://www.w3.org/2006/04/ttaf1#styling">
<head>
<styling>
<style id="bl" tts:fontWeight="bold" tts:color="#FFFFFF" tts:fontSize="15" tts:fontFamily="sansSerif"/>
</styling>
</head>
<body>
<div xml:lang="es">
<p begin="00:00.50" end="00:04.02" style="bl">Info</p>
<p begin="00:04.32" end="00:07.68" style="bl">Different words,<br />and phrases to index</p>
<p begin="00:11.76" end="00:16.04" style="bl">Text</p>
<p begin="00:18.52" end="00:22.88" style="bl">More and<br />more text</p>
</div>
</body>
</tt>
我只需要提取标签开始和结束内的时间戳,然后索引 p 标签内的文本。目标是查询被索引的文本并知道每次命中哪个时间戳间隙。
例如,如果我查询单词“Text”,输出应该是这样的:“2 hits, 00:11.76-00:16.04, 00:18.52-00:22.88”
我开始用 Lucene 索引整个 XML。现在我想解析文件,但我不确定解决这个问题的最佳近似值是什么。
欢迎任何帮助或建议:) 谢谢大家!