在阅读了所有 twitter 流 API 和Phirehose PHP 文档之后,我遇到了一些我还没有做的事情,分别收集和处理数据。
如果我理解正确,它背后的逻辑是防止在处理阶段出现日志堵塞,这将支持收集过程。我以前看过一些例子,但它们基本上在收集后立即写入 MySQL 数据库,这似乎与 twitter 建议的做法背道而驰。
我想要一些建议/帮助是,处理这个问题的最佳方法是什么以及如何处理。人们似乎建议将所有数据直接写入文本文件,然后使用单独的函数对其进行解析/处理。但是使用这种方法,我认为它可能会占用内存。
这就是问题所在,这一切都将作为守护进程/后台进程运行。那么有没有人有解决这样的问题的经验,或者更具体地说,twitter phirehose 库?谢谢!
一些注意事项: *连接将通过一个套接字,所以我的猜测是该文件将不断被附加?不确定是否有人对此有任何反馈