我正在尝试获取一个类别及其子类别的所有维基百科文章。
我目前已经发现了使用 wiki API 的问题的一小部分。例如,要查找Category:Geography,我使用 API 来查找 Geography 的类别:
https://en.wikipedia.org/w/api.php?action=query&format=json&list=categorymembers&cmtitle=Category:Geography&cmlimit=100
我收到了 JSON 响应:
{
"batchcomplete":"",
"query":{
"categorymembers":[
{
"pageid":5883021,
"ns":14,
"title":"Category:Branches of geography"
},
{
"pageid":5782300,
"ns":14,
"title":"Category:Geography by place"
},
{
"pageid":8700702,
"ns":14,
"title":"Category:Geography awards and competitions"
},
...
]
}
}
现在我的问题是如何利用它来制作 Python 脚本来运行和收集所有文章?我遇到了另一个问题,例如,如果我进入第一个类别:地理分支,它包含更多类别和子类别。我如何制作一个脚本,它会一直向下直到到达文章,将其保存到文本文件,然后移回类别并收集更多?