我正在尝试从维基百科为我正在从事的项目获取“类别树”。问题是我只想要更常见的主题和研究领域,所以我能找到的更大的转储包含太多的外围文章。
我最近发现了重要的文章页面,这些页面似乎正是我正在寻找的内容的集合。不幸的是,我真的不知道如何从这些页面中提取信息或过滤较大的转储以仅包含这些类别和文章。
明确地说,我的问题是:给定一个重要的文章级别(比如级别 4),我如何将给定列表的类别树和文章名称提取,例如人、艺术、物理科学等到 csv 或类似文件中然后我可以导入另一个程序。我不需要文章的实际内容,只需要名称(最好是对文章的引用,以便稍后获取更多信息)。
我也愿意接受有关如何更好地完成这项任务的建议。
谢谢!