我正在尝试从http://en.wikipedia.org/wiki/Category:People_by_occupation获取人员列表。我必须遍历所有部分并从每个部分中获取人员。
我应该怎么做?我应该使用爬虫并获取页面并搜索使用 BeautifulSoup 的页面吗?
或者是否有任何其他替代方法可以从 Wikipedia 获得相同的信息?
我正在尝试从http://en.wikipedia.org/wiki/Category:People_by_occupation获取人员列表。我必须遍历所有部分并从每个部分中获取人员。
我应该怎么做?我应该使用爬虫并获取页面并搜索使用 BeautifulSoup 的页面吗?
或者是否有任何其他替代方法可以从 Wikipedia 获得相同的信息?
我会选择Pywikipediabot python 项目。
看看category.py。你可以使用:
* tree - show a tree of subcategories of a given category
* listify - make a list of all of the articles that are in a category
您可以使用 CatScan 工具来搜索类别。
此处的说明
http://meta.wikimedia.org/wiki/CatScan
示例搜索- 注意,html 格式最多可显示 1000 个结果。选择 CSV 导出以检索所有结果。此外,请务必根据需要修改类别深度和其他选项。
已经提到的 pywikipediabot 是另一种选择。
如果你愿意,你可以下载维基百科的整个转储并从那里开始工作。您可能想要的只是2010 年 2 月 3 日的文章转储。但请注意:它的大小为 5.6 GB。