0

我想在 MySQL 数据库中按照一些过滤条件存储实时推文。鉴于我有一台 16 CPU 机器,我想了解哪种方法更好。由于我的情况最好使用流式 API,因此可以使用 tweet4j 库轻松构建 Java 应用程序;在这种情况下,过滤和存储可以使用多线程编程来完成。另一方面,我刚刚发现 Spark 很少有线路允许做同样的事情,但仍然是只有一个内存的瓶颈。

鉴于很难达到 twitter 速率限制并且我无法利用分布式集群,我想了解 spark 是否可以成为真正的改进。

感谢您的帮助。

4

0 回答 0