我需要将推送到 Kafka 的消息存储在深度存储中。我们正在使用 Azure 云服务,所以我认为 Azure Blob 存储可能是一个更好的选择。我想使用 Kafka Connect 的接收器连接器 API 将数据推送到 Azure Blob。Kafka 文档大多建议使用 HDFS 导出数据,但在这种情况下,我需要一个运行 Hadoop 的 Linux VM,我猜这会很昂贵。我的问题是 Azure Blob 存储是存储 JSON 对象的合适选择,而构建自定义接收器连接器是这种情况下的合理解决方案吗?
问问题
4850 次
2 回答
3
自定义接收器连接器肯定有效。Kafka Connect 的设计绝对是为了让您可以插入连接器。事实上,连接器的开发是完全联合的。Confluent 的 JDBC 和 HDFS 连接器首先实现仅仅是因为这两个用例的流行,但还有更多(我们在此处保留了我们知道的连接器列表。
关于 Azure blob 存储是否合适,您提到了 JSON 对象。我认为您唯一需要考虑的是对象的大小以及 Azure 存储是否能够很好地处理对象的大小和数量。我不确定 Azure 存储的特性,但在许多其他对象存储系统中,您可能需要将许多对象聚合到单个 blob 中以获得大量对象的良好性能(即,您可能需要支持许多 JSON 对象的文件格式)。
于 2016-08-11T17:46:31.263 回答
2
如果现在有人碰到这个问题,你应该知道现在有一个用于 azure blob 存储的 kafka 连接接收器
于 2020-02-22T20:39:28.870 回答