3

这是一个“大”问题,我不知道如何开始,所以我希望你们中的一些人能给我一个方向。如果这不是一个“好”的问题,我将道歉关闭线程。

我想通过维基百科的数据库(比如说英文的),做统计。例如,我对维基百科在每个时间点(假设在过去 2 年)有多少活跃编辑(应该定义)感兴趣。

我不知道如何建立这样的数据库,如何访问它,如何知道它有哪些类型的数据等等。所以我的问题是:

  1. 我需要什么工具(除了基本的 R)?我的电脑上的MySQL?RODBC 数据库连接?
  2. 你如何开始规划这样一个项目?
4

3 回答 3

8

你会想从这里开始: http ://en.wikipedia.org/wiki/Wikipedia:Database_download

它将带你到这里:http: //download.wikimedia.org/enwiki/20100312/

您可能想要的文件是:

# 2010-03-17 04:33:50 done Log events to all pages.
    * This contains the log of actions performed on pages.
    * pages-logging.xml.gz 1.0 GB

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

然后将 xml 导入 MySQL。每天、每周、每年等生成用户的直方图不需要 R。您将能够使用单个 MySQL 查询来做到这一点。就像是:

select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);

等等

(我不确定他们的实际架构是什么,但它会是这样的。)

毫无疑问,你会遇到问题,但你也会学到很多东西。祝你好运!

于 2010-04-10T23:36:17.763 回答
5

你可以

于 2010-04-11T12:06:31.640 回答
2

尝试WikiXRay (Python/R) 和zotero

于 2010-05-17T09:44:25.303 回答