0

我正在做一个项目,我将实时积累数据。我想定期将数据从本地机器上传到 HDFS。这里的频率将每隔几个小时。

我的想法是安排一个批处理文件在 2 小时后定期运行。

4

1 回答 1

2

你有几个选择:

  • 使用 cron 作业。
  • 如果您希望它更复杂,您可以使用 Apache Oozie 来安排您的作业。
  • 如果您希望以分布式、可靠和容错的方式完成此操作,您可以使用 Apache Flume。使用 Flume,您甚至可以通过为数据源编写自定义 Flume Source 直接从源收集数据,而无需先将数据聚合到本地 FS,然后将其移动到 HDFS。
于 2013-08-06T21:25:21.087 回答