我想从本地 MediaWiki 安装中导出许多文章(但不是所有文章)的 MediaWiki 标记。我只想要当前的文章标记,而不是历史记录或其他任何内容,每篇文章都有一个单独的文本文件。我想以编程方式和理想的方式在 MediaWiki 服务器上执行此导出,而不是远程执行。
例如,如果我对 Apple、Banana 和 Cupcake 文章感兴趣,我希望能够:
article_list = [“苹果”、“香蕉”、“纸杯蛋糕”] 对于 article_list 中的一个: get_article(a, a + ".txt")
我的意图是:
- 提取所需文章
- 将 MediaWiki 标记存储在单独的文本文件中
- 在单独的程序中解析和处理
MediaWiki 是否已经可以做到这一点?看起来不像。Pywikipediabot 看起来也没有这样的脚本。
一个后备方案是能够手动执行此操作(使用导出特殊页面)并轻松地将输出解析为文本文件。是否有现有的工具可以做到这一点?是否有 MediaWiki XML 转储格式的描述?(我找不到一个。)