问题标签 [apache-apex]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
5379 浏览

hadoop - 用于将文件从本地文件系统移动到 HDFS 的 Hadoop 工具

我正在做一个关于如何将数据从共享网络驱动器导入 HDFS 的 POC。数据将位于共享驱动器上的不同文件夹中,每个文件夹将对应于 HDFS 上的不同目录。我查看了一些流行的工具来执行此操作,但其中大多数是用于移动小块数据而不是整个文件。这些是我找到的工具,还有其他的吗?

Apache Flume:如果只有少数生产服务器产生数据并且数据不需要实时写出,那么通过 Web HDFS 或 NFS 将数据移动到 HDFS 也可能是有意义的,特别是如果被写出的数据量相对较少 - 每几个小时几个几 GB 的文件不会损害 HDFS。在这种情况下,规划、配置和部署 Flume 可能不值得。Flume 的真正目的是实时推送事件,并且数据流是连续的,并且其容量相当大。[来自 safari online 的 Flume book 和 flume cookbook]

Apache Kafka:生产者-消费者模型:消息保存在磁盘上并在集群内复制以防止数据丢失。每个代理都可以处理数 TB 的消息而不会影响性能。

Amazon Kinesis: Flume 等实时数据的付费版本

WEB HDFS:提交 HTTP PUT 请求,不自动跟随重定向,也不发送文件数据。使用 Location 标头中的 URL 和要写入的文件数据提交另一个 HTTP PUT 请求。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]

开源项目: https ://github.com/alexholmes/hdfs-file-slurper

我的要求很简单:

  • 轮询文件的目录,如果有文件,将其复制到 HDFS 并将文件移动到“已处理”目录。
  • 我需要为多个目录执行此操作
0 投票
2 回答
330 浏览

hadoop - 通过示例了解 DataTorrent

我应该在DataTorrent上工作并寻找要阅读的文章/文档。我找不到有关什么是运算符、它们如何用于处理我们的数据以及有关运算符中使用的 MALHAR 库的详细文档(不确定这部分)。有人可以通过建议参考来帮助我了解 DataTorrent 吗?

0 投票
1 回答
8082 浏览

apache-spark - Apache Spark 和 Apache Apex 有什么区别?

Apache Apex - 是一个开源企业级统一流和批处理平台。它用于物联网的 GE Predix 平台。这两个平台之间的主要区别是什么?

问题

  1. 从数据科学的角度来看,它与 Spark 有何不同?
  2. Apache Apex 是否提供 Spark MLlib 之类的功能?如果我们必须在 Apache apex 上构建可扩展的 ML 模型,该怎么做以及使用哪种语言?
  3. 数据科学家是否必须学习 Java 才能构建可扩展的 ML 模型?它有像pyspark这样的python API吗?
  4. Apache Apex 可以与 Spark 集成吗?我们可以在 Apex 之上使用 Spark MLlib 来构建 ML 模型吗?
0 投票
1 回答
319 浏览

json - 如何在 Apache Apex 中使用 JSON 创建 DAG?

我一直在尝试查找使用 JSON 填充 DAG 实例的文档。某处是否有格式的正式文档?

0 投票
1 回答
106 浏览

hadoop - Apache Apex 最小开发环境

我想知道开发和测试 Apex 应用程序所需的最低环境是什么?

Eclipseon中运行,我使用 Apex 架构Windows生成项目并尝试运行创建的默认测试,但出现以下错误:ApexJUnit

2016-04-05 13:00:02,677 [main] DEBUG physical.PhysicalPlan initCheckpoint - 编写激活检查点 {ffffffffffffffff, 0, 0} PTOperator[id=1,name=randomGenerator] RandomNumberGenerator{name=null} 2016-04-05 13:00:02,697 [main] 错误 util.Shell getWinUtilsPath - 无法在 hadoop 二进制路径 java.io.IOException 中找到 winutils 二进制文件:无法在 Hadoop 二进制文件中找到可执行的 null\bin\winutils.exe。在 org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) 在 org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) 在 org.apache.hadoop.util.Shell.( Shell.java:293) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:639) 在 org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:305)

我还需要安装什么来启动和运行开发环境?Hadoop像这样的 JUnit 测试需要吗?

0 投票
1 回答
208 浏览

hadoop - Apache Apex 中的乱序处理

apache-apex 文档指出处理器中事件的顺序被保留(基于它们的发出方式),但这是否意味着没有允许无序处理事件的事件时间概念?

此外,是否可以根据事件的内容重新确定事件的优先级,例如当它们包含特殊短语时(例如,安全上下文中的 AUTH)。NiFi 允许这样做,这在带宽有限的情况下很有用。

0 投票
2 回答
222 浏览

hadoop - Apache Apex 是依赖 HDFS 还是有自己的文件系统?

我了解 Apache Apex 在 Hadoop 和 YARN 上运行。它是否利用 HDFS 进行持久性和复制以防止数据丢失?还是有自己的?

0 投票
2 回答
1291 浏览

apache-storm - Apache Apex 与 Apache Storm 有何不同?

Apache Apex看起来与Apache Storm相似。

  • 用户在两个平台上将应用程序/拓扑构建为有向无环图 (DAG)。Apex 使用操作符/流,Storm 使用 spouts/streams/bolts。
  • 它们都实时处理数据,而不是批处理。
  • 两者似乎都具有高吞吐量和低延迟

所以,乍一看,两者看起来很相似,我并没有完全理解差异。有人可以解释一下主要区别是什么吗?换句话说,我什么时候应该使用一个而不是另一个?

0 投票
2 回答
727 浏览

apache-kafka - 我可以获得使用 avro kafka 消息的示例代码吗?

我刚刚设置了 Datatorrent RTS (Apache Apex) 平台并运行了 pi 演示。我想使用来自 kafka 的“avro”消息,然后将数据聚合并存储到 hdfs 中。我可以获得这个或kafka的示例代码吗?

0 投票
1 回答
146 浏览

apache-kafka - 如何使用 Apache Apex 对 Kafka 0.9 运算符进行单元测试?

从 users@apex.incubator.apache.org 转发

我想使用支持 0.9 版本协议的新 Kafka Operator 运行单元测试代码。

在这个过程中,我包含了 Malhar-Kafka 库版本( 3.3.1-incubating )并使用 Apex 引擎(版本 3.3.0 )作为测试/提供。

编译工作正常,但我的单元测试无法正常运行,出现“java.lang.ClassNotFoundException: com.datatorrent.lib.util.KryoCloneUtils”异常。

运行使用与 Apex 引擎集成的 Kafka 0.9 运算符的单元测试的推荐方法是什么?我假设 Malhar-contrib 库 Kafka 运算符不兼容 0.9 ..

单元测试代码是这样的:

CassandraEventDetailsS​​treamingApp 类在下面的代码片段中扩展了 AbstractKafkaInputOperator。

异常出现在方法 lma.getController();