我正在寻找一种解决方案来转储(xml 格式,包括模板)每篇文章在过去一小时内是如何编辑的。
我从 imacro for firefox 开始。获取文章列表现在很好。目前我有文章名称的麻烦,其中包括空格或德语变音符号。
例如Eidgen%C3%B6ssische_Konstruktionswerkst%C3%A4tte_K%2BW_C-35
如何将 i 转换为“真实”文章名称?
您看到的标题经过编码以在 URL 中使用。您的编程语言应该提供解码这些的标准方法,例如 PHP 中的“urldecode”、JavaScript 中的“decodeURIComponent”、Python 中的“urllib2.quote”等。
但是,如果您通过 MediaWiki API 获取更改页面的标题,则根本不需要这样做。请参阅此查询以获取 Wikipedia,例如:https ://de.wikipedia.org/w/api.php?action=query&list=recentchanges&format=xml