41

我是 R 的长期用户,最近开始使用 Python。使用传统的 RDBMS 系统进行数据仓库,使用 R/Python 进行数字运算,我觉得现在有必要亲自动手进行大数据分析。

我想知道如何开始使用大数据处理。- 如何从 Map/Reduce 和 Hadoop 的使用开始简单

  • 如何利用我在 R 和 Python 方面的技能开始大数据分析。以 Python Disco 项目为例。
  • 使用 RHIPE 包并查找玩具数据集和问题区域。
  • 找到正确的信息,让我决定是否需要从 RDBMS 类型的数据库迁移到 NoSQL

总而言之,我想知道如何从小处着手,逐步建立我在大数据分析方面的技能和专业知识。

感谢您的建议和建议。对于此查询的一般性质,我深表歉意,但我希望获得有关此主题的更多观点。

  • 残酷的
4

2 回答 2

29

以 Python Disco 项目为例。

好的。玩那个。

使用 RHIPE 包并查找玩具数据集和问题区域。

美好的。也玩这个。

不要急于寻找“大”数据集。即使是小型数据集也存在非常有趣的问题。事实上,任何数据集都是一个起点。

我曾经构建了一个小型星型模式来分析一个组织的 6000 万美元预算。源数据在电子表格中,基本上难以理解。因此,我将其卸载为星型模式,并用 Python 编写了几个分析程序来创建相关数字的简化报告。

找到正确的信息,让我决定是否需要从 RDBMS 类型的数据库迁移到 NoSQL

这很简单。

首先,获取一本关于数据仓库的书(Ralph Kimball 的 The Data Warehouse Toolkit),例如。

其次,仔细研究“星图”——尤其是 Kimball 解释的所有变体和特殊情况(深入)

第三,实现以下几点: SQL 用于更新和事务。

在进行“分析”处理(无论大小)时,几乎没有任何形式的更新。SQL(和相关的规范化)不再那么重要了。

Kimball 的观点(以及其他人)是您的大部分数据仓库不是在 SQL 中,而是在简单的平面文件中。数据集市(用于即席、切片分析)可能位于关系数据库中,以允许使用 SQL 进行简单、灵活的处理。

所以“决定”是微不足道的。如果它是事务性的(“OLTP”),它必须在关系数据库或 OO DB 中。如果它是分析性的(“OLAP”),它不需要 SQL,除了切片分析;即使这样,数据库也会根据需要从官方文件中加载。

于 2010-12-01T11:03:11.583 回答
1

您可以考虑的一件事是 DMelt ( http://jwork.org/dmelt/ ) 数据分析程序。一个值得注意的特点是它有数百个使用 Python 语言的示例和几本书。我使用它的原因是它在我的 Windows 10 上运行(因为它使用 Java VM),而且它具有非常好的 2D/3D 图形,可以导出为矢量图形格式。

于 2016-05-30T22:49:23.257 回答