给定一组 excel 文件,我有一个 python 脚本来进行数据分析。现在我们正在尝试通过定期搜索 mediawiki 服务器以查找最近上传的任何 excel 文件并应用我的脚本来自动执行此步骤。
我们正在尝试查看是否有任何方法可以至少获取 excel 文件的 url。
任何人都可以帮助我们吗?
要从 2021 年 4 月 4 日午夜开始以 XML 格式向英语维基百科上传多达 100 条内容,请发送https://en.wikipedia.org/w/api.php?action=query&list=logevents&leaction=upload/upload&lestart=2021-04-04T00:00:00Z&lelimit=100&format=xml
.
.xls
要提取以or结尾的上传文件的名称.xlsx
,请使用 XPath 1 query (//item[ends-with(@title,'.xls')] | //item[ends-with(@title,'.xlsx')])/@title
。
要从图像页面的名称中获取实际的图像 URL,请使用https://en.wikipedia.org/w/api.php?action=query&titles=File:Limbo Royal Blood.jpg|File:Photo of Miriam Roth.jpg&prop=imageinfo&iilimit=100&iiprop=url
并应用 XPath //imageinfo/ii/@url
。