这是一个“大”问题,我不知道如何开始,所以我希望你们中的一些人能给我一个方向。如果这不是一个“好”的问题,我将道歉关闭线程。
我想通过维基百科的数据库(比如说英文的),做统计。例如,我对维基百科在每个时间点(假设在过去 2 年)有多少活跃编辑(应该定义)感兴趣。
我不知道如何建立这样的数据库,如何访问它,如何知道它有哪些类型的数据等等。所以我的问题是:
- 我需要什么工具(除了基本的 R)?我的电脑上的MySQL?RODBC 数据库连接?
- 你如何开始规划这样一个项目?
你会想从这里开始: http ://en.wikipedia.org/wiki/Wikipedia:Database_download
它将带你到这里:http: //download.wikimedia.org/enwiki/20100312/
您可能想要的文件是:
# 2010-03-17 04:33:50 done Log events to all pages.
* This contains the log of actions performed on pages.
* pages-logging.xml.gz 1.0 GB
http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz
然后将 xml 导入 MySQL。每天、每周、每年等生成用户的直方图不需要 R。您将能够使用单个 MySQL 查询来做到这一点。就像是:
select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);
等等
(我不确定他们的实际架构是什么,但它会是这样的。)
毫无疑问,你会遇到问题,但你也会学到很多东西。祝你好运!
你可以