问题标签 [apache-apex]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 用于将文件从本地文件系统移动到 HDFS 的 Hadoop 工具
我正在做一个关于如何将数据从共享网络驱动器导入 HDFS 的 POC。数据将位于共享驱动器上的不同文件夹中,每个文件夹将对应于 HDFS 上的不同目录。我查看了一些流行的工具来执行此操作,但其中大多数是用于移动小块数据而不是整个文件。这些是我找到的工具,还有其他的吗?
Apache Flume:如果只有少数生产服务器产生数据并且数据不需要实时写出,那么通过 Web HDFS 或 NFS 将数据移动到 HDFS 也可能是有意义的,特别是如果被写出的数据量相对较少 - 每几个小时几个几 GB 的文件不会损害 HDFS。在这种情况下,规划、配置和部署 Flume 可能不值得。Flume 的真正目的是实时推送事件,并且数据流是连续的,并且其容量相当大。[来自 safari online 的 Flume book 和 flume cookbook]
Apache Kafka:生产者-消费者模型:消息保存在磁盘上并在集群内复制以防止数据丢失。每个代理都可以处理数 TB 的消息而不会影响性能。
Amazon Kinesis: Flume 等实时数据的付费版本
WEB HDFS:提交 HTTP PUT 请求,不自动跟随重定向,也不发送文件数据。使用 Location 标头中的 URL 和要写入的文件数据提交另一个 HTTP PUT 请求。[ http://hadoop.apache.org/docs/r1.0.4/webhdfs.html#CREATE]
开源项目: https ://github.com/alexholmes/hdfs-file-slurper
我的要求很简单:
- 轮询文件的目录,如果有文件,将其复制到 HDFS 并将文件移动到“已处理”目录。
- 我需要为多个目录执行此操作
hadoop - 通过示例了解 DataTorrent
我应该在DataTorrent上工作并寻找要阅读的文章/文档。我找不到有关什么是运算符、它们如何用于处理我们的数据以及有关运算符中使用的 MALHAR 库的详细文档(不确定这部分)。有人可以通过建议参考来帮助我了解 DataTorrent 吗?
apache-spark - Apache Spark 和 Apache Apex 有什么区别?
Apache Apex - 是一个开源企业级统一流和批处理平台。它用于物联网的 GE Predix 平台。这两个平台之间的主要区别是什么?
问题
- 从数据科学的角度来看,它与 Spark 有何不同?
- Apache Apex 是否提供 Spark MLlib 之类的功能?如果我们必须在 Apache apex 上构建可扩展的 ML 模型,该怎么做以及使用哪种语言?
- 数据科学家是否必须学习 Java 才能构建可扩展的 ML 模型?它有像pyspark这样的python API吗?
- Apache Apex 可以与 Spark 集成吗?我们可以在 Apex 之上使用 Spark MLlib 来构建 ML 模型吗?
json - 如何在 Apache Apex 中使用 JSON 创建 DAG?
我一直在尝试查找使用 JSON 填充 DAG 实例的文档。某处是否有格式的正式文档?
hadoop - Apache Apex 最小开发环境
我想知道开发和测试 Apex 应用程序所需的最低环境是什么?
在Eclipse
on中运行,我使用 Apex 架构Windows
生成项目并尝试运行创建的默认测试,但出现以下错误:Apex
JUnit
2016-04-05 13:00:02,677 [main] DEBUG physical.PhysicalPlan initCheckpoint - 编写激活检查点 {ffffffffffffffff, 0, 0} PTOperator[id=1,name=randomGenerator] RandomNumberGenerator{name=null} 2016-04-05 13:00:02,697 [main] 错误 util.Shell getWinUtilsPath - 无法在 hadoop 二进制路径 java.io.IOException 中找到 winutils 二进制文件:无法在 Hadoop 二进制文件中找到可执行的 null\bin\winutils.exe。在 org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:278) 在 org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:300) 在 org.apache.hadoop.util.Shell.( Shell.java:293) 在 org.apache.hadoop.fs.RawLocalFileSystem.setPermission(RawLocalFileSystem.java:639) 在 org.apache.hadoop.fs.RawLocalFileSystem.create(RawLocalFileSystem.java:305)
我还需要安装什么来启动和运行开发环境?Hadoop
像这样的 JUnit 测试需要吗?
hadoop - Apache Apex 中的乱序处理
apache-apex 文档指出处理器中事件的顺序被保留(基于它们的发出方式),但这是否意味着没有允许无序处理事件的事件时间概念?
此外,是否可以根据事件的内容重新确定事件的优先级,例如当它们包含特殊短语时(例如,安全上下文中的 AUTH)。NiFi 允许这样做,这在带宽有限的情况下很有用。
hadoop - Apache Apex 是依赖 HDFS 还是有自己的文件系统?
我了解 Apache Apex 在 Hadoop 和 YARN 上运行。它是否利用 HDFS 进行持久性和复制以防止数据丢失?还是有自己的?
apache-storm - Apache Apex 与 Apache Storm 有何不同?
Apache Apex看起来与Apache Storm相似。
- 用户在两个平台上将应用程序/拓扑构建为有向无环图 (DAG)。Apex 使用操作符/流,Storm 使用 spouts/streams/bolts。
- 它们都实时处理数据,而不是批处理。
- 两者似乎都具有高吞吐量和低延迟
所以,乍一看,两者看起来很相似,我并没有完全理解差异。有人可以解释一下主要区别是什么吗?换句话说,我什么时候应该使用一个而不是另一个?
apache-kafka - 我可以获得使用 avro kafka 消息的示例代码吗?
我刚刚设置了 Datatorrent RTS (Apache Apex) 平台并运行了 pi 演示。我想使用来自 kafka 的“avro”消息,然后将数据聚合并存储到 hdfs 中。我可以获得这个或kafka的示例代码吗?
apache-kafka - 如何使用 Apache Apex 对 Kafka 0.9 运算符进行单元测试?
从 users@apex.incubator.apache.org 转发
我想使用支持 0.9 版本协议的新 Kafka Operator 运行单元测试代码。
在这个过程中,我包含了 Malhar-Kafka 库版本( 3.3.1-incubating )并使用 Apex 引擎(版本 3.3.0 )作为测试/提供。
编译工作正常,但我的单元测试无法正常运行,出现“java.lang.ClassNotFoundException: com.datatorrent.lib.util.KryoCloneUtils”异常。
运行使用与 Apex 引擎集成的 Kafka 0.9 运算符的单元测试的推荐方法是什么?我假设 Malhar-contrib 库 Kafka 运算符不兼容 0.9 ..
单元测试代码是这样的:
CassandraEventDetailsStreamingApp 类在下面的代码片段中扩展了 AbstractKafkaInputOperator。
异常出现在方法 lma.getController();