2

我想用一个或多个 python 库标记出感兴趣的维基百科页面。我对表格和列表最感兴趣。然后我希望能够将这些数据导入 Postgres 或 Neo4j。

例如,以下是我感兴趣的三个数据集:

其中每一个的来源都是用维基百科的标记品牌编写的,用于将它们呈现出来。原始数据表单中使用了许多特定于维基百科的标签和语法。HTML 可能几乎是更简单的解决方案,因为我可以使用 BeautifulSoup。

有人知道更好的标记方法吗?如果我采用最终的 HTML 并用 BeautifulSoup 解析它,我觉得我会重新发明轮子。此外,如果我能找到一种以 XML 格式输出这些页面的方法,则表数据可能没有被充分标记化,并且需要进一步处理。

4

2 回答 2

2

这更多地涉及语义网络方向,但DBPedia允许使用 SPARQL 查询维基百科数据的部分(社区转换工作)。这使得提取所需数据在理论上很简单,但是处理 RDF 三元组可能很麻烦。

此外,我不知道 DBPedia 是否包含您感兴趣的任何数据。

于 2012-05-24T12:14:01.940 回答
2

由于 Wikipedia 建立在 MediWiki 之上,因此您可以利用一个api 。您还可以使用Special:Export 。

一旦你有了原始数据,你就可以通过mwlib运行它来解析它。

于 2012-05-24T12:05:17.020 回答