如果我下载了 Wikipedia XML 转储,有没有办法从 XML 文件中删除所有内部链接?
谢谢
Wikipedia 数据库转储和有关使用它们的信息位于此处:Wikipedia:Database download。您应该这样做,而不是编写脚本来抓取 Wikipedia。
如果要将它们导入本地 wiki,您可以做的一件事是导入您想要的所有文件,然后使用机器人(例如pywikipediabot易于使用)来删除所有内部链接。
我会尝试使用 XSLT 将 XML 文件转换为另一个 XML 文件。
您可以在您最喜欢的文本编辑器中进行搜索和替换,将 [[ 和 ]] 替换为空。