1

简介:
我是一个BI迷,想开发一个项目来深入了解 Wikipedia 的数据。
我会编写脚本从dbpedia中提取数据(可能从人员文章开始)并将其加载到人员表中。

我的问题是:
以前有人做过吗?更好的是,是否有专门的社区?
如果脚本在某个地方,我宁愿为它们做出贡献,也不愿重写它们。

举个例子:
在 OLAP 多维数据集中,我可以按名字向下钻取,选择钻取“Remi”,检查在哪些区域使用了这个名字,然后为所有区域向下钻取性别来检查这个名字在女孩中很受欢迎,在男孩中很受欢迎。对于它们中的每一个,我可以通过时间向下钻取以查看趋势。如果没有 BI 工具,您无法进行此类调查,否则需要几天而不是几秒钟。

4

3 回答 3

1

查看 Mahout,它是一个分布式机器学习库。那里的一个例子使用了维基百科的转储

https://cwiki.apache.org/MAHOUT/wikipedia-bayes-example.html http://mahout.apache.org

我不熟悉商业智能的确切细节,但是机器学习是关于寻找相关模式和信息聚集在一起的。至少这应该给出一个将 wiki 加载到内存中并用数据做一些简单而不是那么简单的事情的例子。

于 2010-08-23T07:45:37.147 回答
0

您可以设置一个virtuoso服务器(有一个开源版本)并在本地机器上加载dbpedia 数据集,并使用 virtuoso 作为带有 SPARQL 的“SQL DB”(它具有 jdbc 接口)

从您的示例中,您只能加载“本体信息框 *”和“原始信息框 *”数据集

于 2010-11-22T17:16:07.857 回答
0

你想要一个开源的 OLAP 服务器吗?

您需要为数据集设置数据库还是使用文件?我们(在 www.icCube.com)不需要 DB 来设置我们的多维数据集。

你的数据集有多大?

于 2010-12-17T04:27:36.467 回答