我下载了一个 Wikipedia 转储,我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML?
6 回答
请参阅java-wikipedia-parser。我从未使用过它,但根据文档:
解析器带有一个 HTML 生成器。但是,您可以通过传递您自己的接口实现来控制正在生成的输出
be.devijver.wikipedia.Visitor
。
我不知道维基百科转储的 xml 格式到底是什么样子。但是,如果部分文本在维基百科标记中,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html . 这是 Apache lucene 的 Wikipedia 包的类之一。我没有使用它,但 apache lucene 是一个相当成熟的项目,因此值得尝试它的——在这种情况下是实验性的——包。
JWPL 解析器使用 MediaWiki 标记分析文本的结构并将其表示为 Java 对象。这允许结构化访问例如维基百科或维基词典的内容。解析器没有独立版本,因为它是 JWPL Wikipedia API 版本的一部分。但是,无需通过 JWPL 访问 Wikipedia 即可完美使用它。
这可能会有所帮助:一个页面,其中包含从 mediawiki 到其他格式的转换器,包括 docbook。Docbook 是一种基于 xml 的标准格式,可能适合您的需求(mediawiki 内容的 xml 表示)
您可以使用多种工具来解析您的内容。所有脚本语言都有模块。例如 Perl 语言有Text::Markup::Trac,它是 Text::Markup 的 Trac wiki 语法解析器。它生成一个 HTML 文件。