我一直在搜索 wikipedia dump parser into Customized xml ,基本上每篇文章都应该被解析成一组部分标签,包含文章的部分纯文本。我想出了以下解决方案
第一个问题是它仅在 Windows 上可用,而第二个不提供在嵌套 xml 方案中生成部分的能力。以前的mwlib实现似乎提供了这样的功能,但遗憾的是新版本没有。linux上是否有任何维基百科xml转储解析器可以生成可定制的xmls?
我认为使用 jsonwikipedia [1] 这是可行的。它从 Wikipedia XML 转储中生成“json 转储”。这篇博文 [2] 中有关 jsonwikipedia 和其他工具的更多详细信息
[1] - https://github.com/idio/json-wikipedia
[2] - http://engineering.idioplatform.com/2016/02/18/wikipedia-toolkit.html