“apache-apex”的相关标签问题

0 投票

3 回答

5379 浏览

hadoop - 用于将文件从本地文件系统移动到 HDFS 的 Hadoop 工具

我正在做一个关于如何将数据从共享网络驱动器导入 HDFS 的 POC。数据将位于共享驱动器上的不同文件夹中，每个文件夹将对应于 HDFS 上的不同目录。我查看了一些流行的工具来执行此操作，但其中大多数是用于移动小块数据而不是整个文件。这些是我找到的工具，还有其他的吗？

Apache Flume：如果只有少数生产服务器产生数据并且数据不需要实时写出，那么通过 Web HDFS 或 NFS 将数据移动到 HDFS 也可能是有意义的，特别是如果被写出的数据量相对较少 - 每几个小时几个几 GB 的文件不会损害 HDFS。在这种情况下，规划、配置和部署 Flume 可能不值得。Flume 的真正目的是实时推送事件，并且数据流是连续的，并且其容量相当大。[来自 safari online 的 Flume book 和 flume cookbook]

Apache Kafka：生产者-消费者模型：消息保存在磁盘上并在集群内复制以防止数据丢失。每个代理都可以处理数 TB 的消息而不会影响性能。

Amazon Kinesis： Flume 等实时数据的付费版本

WEB HDFS：提交 HTTP PUT 请求，不自动跟随重定向，也不发送文件数据。使用 Location 标头中的 URL 和要写入的文件数据提交另一个 HTTP PUT 请求。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

开源项目： https ://github.com/alexholmes/hdfs-file-slurper

我的要求很简单：

轮询文件的目录，如果有文件，将其复制到 HDFS 并将文件移动到“已处理”目录。
我需要为多个目录执行此操作

2014-08-12T00:24:36.000

0 投票

2 回答

330 浏览

hadoop - 通过示例了解 DataTorrent

我应该在DataTorrent上工作并寻找要阅读的文章/文档。我找不到有关什么是运算符、它们如何用于处理我们的数据以及有关运算符中使用的 MALHAR 库的详细文档（不确定这部分）。有人可以通过建议参考来帮助我了解 DataTorrent 吗？

hadoop bigdata hadoop-yarn hadoop-streaming apache-apex

2015-05-26T17:06:22.043

0 投票

1 回答

8082 浏览

apache-spark - Apache Spark 和 Apache Apex 有什么区别？

Apache Apex - 是一个开源企业级统一流和批处理平台。它用于物联网的 GE Predix 平台。这两个平台之间的主要区别是什么？

问题

从数据科学的角度来看，它与 Spark 有何不同？
Apache Apex 是否提供 Spark MLlib 之类的功能？如果我们必须在 Apache apex 上构建可扩展的 ML 模型，该怎么做以及使用哪种语言？
数据科学家是否必须学习 Java 才能构建可扩展的 ML 模型？它有像pyspark这样的python API吗？
Apache Apex 可以与 Spark 集成吗？我们可以在 Apex 之上使用 Spark MLlib 来构建 ML 模型吗？

apache-spark machine-learning pyspark stream-processing apache-apex

2016-02-23T14:11:00.190

0 投票

1 回答

319 浏览

json - 如何在 Apache Apex 中使用 JSON 创建 DAG？

我一直在尝试查找使用 JSON 填充 DAG 实例的文档。某处是否有格式的正式文档？

json stream-processing apache-apex

user6147934

2016-04-07T21:39:49.470

0 投票

1 回答

106 浏览

hadoop - Apache Apex 最小开发环境

我想知道开发和测试 Apex 应用程序所需的最低环境是什么？

在Eclipseon中运行，我使用 Apex 架构Windows生成项目并尝试运行创建的默认测试，但出现以下错误：ApexJUnit

2016-04-05 13:00:02,677 [main] DEBUG physical.PhysicalPlan initCheckpoint - 编写激活检查点 {ffffffffffffffff, 0, 0} PTOperator[id=1,name=randomGenerator] RandomNumberGenerator{name=null} 2016-04-05 13:00:02,697 [main] 错误 util.Shell getWinUtilsPath - 无法在 hadoop 二进制路径 java.io.IOException 中找到 winutils 二进制文件：无法在 Hadoop 二进制文件中找到可执行的 null\bin\winutils.exe。在 org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) 在 org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) 在 org.apache.hadoop.util.Shell.( Shell.java:293) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:639) 在 org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:305)

我还需要安装什么来启动和运行开发环境？Hadoop像这样的 JUnit 测试需要吗？

hadoop stream-processing apache-apex

2016-04-07T22:11:34.257

0 投票

1 回答

208 浏览