我知道这在 R 中并不是一个新概念,我浏览了高性能和并行计算任务视图。话虽如此,我是从无知的角度问这个问题的,因为我没有接受过计算机科学方面的正式培训并且完全是自学的。
最近我从 Twitter Streaming API 收集了数据,目前原始 JSON 位于一个 10 GB 的文本文件中。我知道在使用 R 来处理大数据方面已经取得了长足的进步,那么您将如何解决这个问题呢?以下是我希望完成的一些任务:
- 读取数据并将其处理成数据帧
- 基本的描述性分析,包括文本挖掘(常用词等)
- 绘图
是否可以为此完全使用 R,或者我必须编写一些 Python 来解析数据并将其放入数据库中,以便获取足够小的随机样本以适合 R。
简单地说,您可以提供的任何提示或指示将不胜感激。同样,如果您在三年级级别描述解决方案,我也不会生气。
提前致谢。