3

我正在尝试从http://en.wikipedia.org/wiki/Category:People_by_occupation获取人员列表。我必须遍历所有部分并从每个部分中获取人员。

我应该怎么做?我应该使用爬虫并获取页面并搜索使用 BeautifulSoup 的页面吗?
或者是否有任何其他替代方法可以从 Wikipedia 获得相同的信息?

4

3 回答 3

3

我会选择Pywikipediabot python 项目。

看看category.py。你可以使用:

* tree        - show a tree of subcategories of a given category
* listify     - make a list of all of the articles that are in a category
于 2010-03-28T19:58:18.577 回答
1

您可以使用 CatScan 工具来搜索类别。

此处的说明
http://meta.wikimedia.org/wiki/CatScan

示例搜索- 注意,html 格式最多可显示 1000 个结果。选择 CSV 导出以检索所有结果。此外,请务必根据需要修改类别深度和其他选项。

已经提到的 pywikipediabot 是另一种选择。

于 2010-04-05T21:00:33.867 回答
1

如果你愿意,你可以下载维基百科的整个转储并从那里开始工作。您可能想要的只是2010 年 2 月 3 日的文章转储。但请注意:它的大小为 5.6 GB。

于 2010-03-28T18:38:00.170 回答