13

我下载了一个 Wikipedia 转储,我想将 wiki 格式转换为我的对象格式。是否有可用的 wiki 解析器将对象转换为 XML?

4

6 回答 6

7

请参阅java-wikipedia-parser。我从未使用过它,但根据文档:

解析器带有一个 HTML 生成器。但是,您可以通过传递您自己的接口实现来控制正在生成的输出 be.devijver.wikipedia.Visitor

于 2010-10-08T07:41:45.663 回答
2

我不知道维基百科转储的 xml 格式到底是什么样子。但是,如果部分文本在维基百科标记中,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html . 这是 Apache lucene 的 Wikipedia 包的类之一。我没有使用它,但 apache lucene 是一个相当成熟的项目,因此值得尝试它的——在这种情况下是实验性的——包。

于 2010-10-13T13:23:30.250 回答
2

JWPL 解析器使用 MediaWiki 标记分析文本的结构并将其表示为 Java 对象。这允许结构化访问例如维基百科或维基词典的内容。解析器没有独立版本,因为它是 JWPL Wikipedia API 版本的一部分。但是,无需通过 JWPL 访问 Wikipedia 即可完美使用它。

http://code.google.com/p/jwpl/wiki/JWPLParser

于 2011-10-21T08:13:11.863 回答
1

这可能会有所帮助:一个页面,其中包含从 mediawiki 到其他格式的转换器,包括 docbook。Docbook 是一种基于 xml 的标准格式,可能适合您的需求(mediawiki 内容的 xml 表示)

于 2010-10-08T06:37:58.580 回答
0

您可以使用多种工具来解析您的内容。所有脚本语言都有模块。例如 Perl 语言有Text::Markup::Trac,它是 Text::Markup 的 Trac wiki 语法解析器。它生成一个 HTML 文件。

于 2011-08-19T13:39:28.817 回答
-1

你可以试试 wikiprep 它是一个 perl 维基百科解析器检查它的页面

它输出许多文件,其中一些是

1- wikipedia 解析成 XML 2- cat-hier 文件,其中包含 wikipedia 类别层次结构

我已经尝试过了,它非常有用,唯一的问题是它需要高内存来处理很可能超过 4gb 的 RAM,你也可以从这里下载预先准备好的 XML 版本,该版本也可以在页面上找到

于 2011-08-19T21:51:19.380 回答