python - 如何开始使用大数据分析

Question

我是 R 的长期用户，最近开始使用 Python。使用传统的 RDBMS 系统进行数据仓库，使用 R/Python 进行数字运算，我觉得现在有必要亲自动手进行大数据分析。

我想知道如何开始使用大数据处理。- 如何从 Map/Reduce 和 Hadoop 的使用开始简单

如何利用我在 R 和 Python 方面的技能开始大数据分析。以 Python Disco 项目为例。
使用 RHIPE 包并查找玩具数据集和问题区域。
找到正确的信息，让我决定是否需要从 RDBMS 类型的数据库迁移到 NoSQL

总而言之，我想知道如何从小处着手，逐步建立我在大数据分析方面的技能和专业知识。

感谢您的建议和建议。对于此查询的一般性质，我深表歉意，但我希望获得有关此主题的更多观点。

残酷的

score 29 · Accepted Answer

以 Python Disco 项目为例。

好的。玩那个。

使用 RHIPE 包并查找玩具数据集和问题区域。

美好的。也玩这个。

不要急于寻找“大”数据集。即使是小型数据集也存在非常有趣的问题。事实上，任何数据集都是一个起点。

我曾经构建了一个小型星型模式来分析一个组织的 6000 万美元预算。源数据在电子表格中，基本上难以理解。因此，我将其卸载为星型模式，并用 Python 编写了几个分析程序来创建相关数字的简化报告。

找到正确的信息，让我决定是否需要从 RDBMS 类型的数据库迁移到 NoSQL

这很简单。

首先，获取一本关于数据仓库的书（Ralph Kimball 的 The Data Warehouse Toolkit），例如。

其次，仔细研究“星图”——尤其是 Kimball 解释的所有变体和特殊情况（深入）

第三，实现以下几点： SQL 用于更新和事务。

在进行“分析”处理（无论大小）时，几乎没有任何形式的更新。SQL（和相关的规范化）不再那么重要了。

Kimball 的观点（以及其他人）是您的大部分数据仓库不是在 SQL 中，而是在简单的平面文件中。数据集市（用于即席、切片分析）可能位于关系数据库中，以允许使用 SQL 进行简单、灵活的处理。

所以“决定”是微不足道的。如果它是事务性的（“OLTP”），它必须在关系数据库或 OO DB 中。如果它是分析性的（“OLAP”），它不需要 SQL，除了切片分析；即使这样，数据库也会根据需要从官方文件中加载。

score 1 · Accepted Answer

您可以考虑的一件事是 DMelt ( http://jwork.org/dmelt/ ) 数据分析程序。一个值得注意的特点是它有数百个使用 Python 语言的示例和几本书。我使用它的原因是它在我的 Windows 10 上运行（因为它使用 Java VM），而且它具有非常好的 2D/3D 图形，可以导出为矢量图形格式。

python - 如何开始使用大数据分析

2 回答 2

Related

Reference