0

最近我有时间学习数据可视化,作为 Excel 图表的一种替代。我的选择是 R(带有 ggplot2)并且已经开始学习它。

在“R in a nutshell”中,约瑟夫·阿德勒说:

通常,我使用像 Perl 这样的工具来预处理大文件,然后再在 R 中使用它们。

我建议使用 Perl、Python 或 Ruby 之类的脚本语言来预处理大型、复杂的文本文件并将它们转换为可消化的形式。(附带说明一下,我通常在 Excel 中写出字段名称和长度列表,然后使用 Excel 公式创建 R 或 Perl 代码来加载它们。

其背后的理念是 Unix 哲学——让每个工具都做好自己的工作,让它们一起工作。因此,从长远来看,我计划学习:

  • R 用于可视化,以及
  • 未来用于数据处理的另一种编程语言。

问题是要学习哪种语言?

我没有计算机科学背景,同时 Perl 对我来说太难了。我在网上做了一些搜索,发现 Haskell 和 Clojure 很有趣。由于这里有很多程序员+统计学家,我想知道,哪一个作为大数据处理目的与 R 相得益彰?

缺口

4

3 回答 3

6

我真的不喜欢在工作流程中使用太多工具。如果我能侥幸只使用 R,我更喜欢那样。您最终不得不手动连续运行一些工具,这使得再次运行需要做更多的工作。或者你花时间连接不同的工具,这需要时间并引入了自己的一系列问题。

对于初学者来说,坚持使用 R 语言还有另一个好处:您将所有时间都花在学习一种语言上,即避免成为万事通但一无所获。

我使用了多种编程语言(R、Python、IDL、Fortran),但对于数据处理,如果我能提供帮助,我倾向于坚持使用纯 R。

于 2013-04-14T07:11:28.277 回答
1

我在这个领域选择的个人工具是Incanter

它结合了:

  • 受 R 启发的统计/可视化功能
  • Clojure 作为通用编程语言的使用
  • 在 JVM 上运行并且可以访问所有 J​​ava 库:如果您想与其他系统集成或直接在生产中使用,这是一个很大的好处。

总的来说,从纯粹的统计角度来看,它还没有 R 复杂,但恕我直言,Clojure 是一种更好、更强大的通用语言。因此,如果您想使用数据构建生产应用程序,则整个包会更有用。

于 2013-04-14T13:15:49.547 回答
0

我会选择 python,主要是因为:

  1. 更容易阅读/理解
  2. R-python 桥使您可以非常轻松地集成两种语言。
于 2013-04-14T06:45:33.740 回答