我正在尝试使用 API 在命名空间中获取维基百科中的所有页面标题,如下所示:
https://en.wikipedia.org/w/api.php?action=query&format=xml&list=allpages&apnamespace=0&apfilterredir=nonredirects&aplimit=max&continue=-||&apcontinue=BASE_PAGE_TITLE
我一直在请求这个 url 并检查响应是否包含 continue 标记。如果是,那么我使用相同的请求,但将 BASE_PAGE_TITLE 更改为响应中 apcontinue 属性中的值。
我的应用程序自 3 天以来一直在运行,检索到的数量超过 30M,而转储中的数量约为 13M。
任何想法?