我处于“中等”和“大”数据之间的那个空间。我有 # 个挑战:
- 从服务器到本地机器的高效下载/ IO。
我的数据存储在亚马逊网络服务器上,目前我每天都下载整个数据集(变化代表 <5%)。
- 在单台计算机上处理大型数据集,这样内存就不是问题了。
我想在我的笔记本电脑和台式电脑上拥有相同的开发体验。我在 AWS 上使用过 RStudio 的服务器应用程序,但应用程序本身有点慢,我更喜欢在本地使用 RStudio。
在这一点上,我并没有受到 CPU 能力的严重限制,主要是下载/IO 和内存。我应该学习什么来使这个过程更有效率?