问题标签 [apache-storm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 工具同步日志文件分发系统
我在多个 Linux 节点上运行分布式作业。每个节点将数据记录到一个文件中。我浪费了很多时间使用 ssh 单独连接和查看每个日志。
是否有工具可以整合跨系统的文件?或其他方式一次查看多个日志?
php - 实时地理数据流分析
我有以下位置流,我可以通过 Web 界面访问:
它提供车辆当前所在的信息(纬度/经度)。它以 10hz 的速率刷新。
我现在有在 XML 文件中定义的地理围栏,例如一个矩形,它具有以下测量值:
1.)是否有合适的方法/应用程序来分析此数据流,以在线检测车辆是在此地理围栏内部还是外部?
最后,这些信息(进出地理围栏中的车辆)应保存在数据库中,以便其他应用程序可以处理它。
我已阅读有关 Storm 实时计算系统的信息: http: //storm-project.net/
是否可以使用此工具实现这样的地理围栏功能?或者我应该编写一个 c++ 软件来完成这项工作?
到目前为止,我只有 PHP 和 JS 等 Web 技术的经验。我怎么解决这个问题?我怎样才能有效地在线分析这个数据流?
此外,如果我能分析这个流中的复杂事件,那就太好了。
oracle - 将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata
我的要求是
- 将数据从 Oracle 移动到 HDFS
- 处理 HDFS 上的数据
- 将处理后的数据移至 Teradata。
还需要每 15 分钟进行一次整个处理。源数据量可能接近 50 GB,处理后的数据也可能相同。
在网上搜索了很多之后,我发现
- ORAOOP 将数据从 Oracle 移动到 HDFS(让代码带有 shell 脚本并安排它以所需的时间间隔运行)。
- 通过自定义 MapReduce 或 Hive 或 PIG 进行大规模处理。
- SQOOP - Teradata 连接器将数据从 HDFS 移动到 Teradata(同样有一个带有代码的 shell 脚本,然后安排它)。
这首先是正确的选择吗?这在所需的时间段内是否可行(请注意,这不是每天的批次)?
我发现的其他选项如下
- STORM(用于实时数据处理)。但我找不到开箱即用的 oracle Spout 或 Teradata bolt。
- 任何开源 ETL 工具,例如 Talend 或 Pentaho。
请分享您对这些选项以及任何其他可能性的想法。
apache-storm - 是否有任何可视化工具可以查看风暴集群中的处理链(螺栓和喷嘴)?
语境:
在一个集成测试中看到一个空指针,该测试在本地生成的 stom 集群中运行。增加了日志级别,无法弄清楚到底发生了什么。任何帮助,将不胜感激。
maven - 为什么我不能使用该命令从storm-starter 运行示例?
我以前没有使用过 Storm 或 Maven 的经验,我正在开发我的入门项目。当我使用那里给出的命令编译上传到 git 网站上的启动项目时,即:
我可以运行 Exclamation 拓扑类,但是当我使用这个命令时:
我无法运行它。
顺便说一句,我从 apache 网站上的 maven 教程中得到了第二个命令有人能指出我在这里做错了什么吗?
PS:这是错误http://pastebin.com/A1PQbB3r
java - 任务挂钩似乎不是 JSON 可序列化的
我有一个工作的 Storm 拓扑,我通过添加一个任务挂钩进行了调整,现在我收到一个错误,说我的配置不是 json 可序列化的。将拓扑提交到 LocalCluster 时发生错误。
我怀疑我的问题是我没有正确配置任务挂钩。在我的拓扑驱动程序类中,就在我提交拓扑之前,我这样做:
其中 config 是 backtype.storm.Config 类型,RubeGoldbergTaskHook 扩展 BaseTaskHook
我是否没有正确设置 config.TOPOLOGY_AUTO_TASK_HOOKS 属性,还是需要将我的 RubeGoldbergTaskHook 类修改为 JSON 可序列化?
java - 在简单的聚合风暴拓扑中进行分组
我正在尝试编写一个执行以下操作的拓扑:
- 订阅 twitter 提要的 spout(基于关键字)
- 一个聚合螺栓,它聚合一个集合中的许多推文(比如 N)并将它们发送到打印机螺栓
- 一个简单的螺栓,可以立即将集合打印到控制台。
实际上,我想对集合进行更多处理。
我在本地对其进行了测试,看起来它正在工作。但是,我不确定我是否正确设置了螺栓上的分组,以及在实际风暴集群上部署时是否可以正常工作。如果有人可以帮助查看此拓扑并提出任何错误、更改或改进建议,我将不胜感激。
谢谢。
这就是我的拓扑结构。
聚合螺栓
打印机螺栓
push - 推式风暴喷口
我是 Storm 的新手,一直在探索其功能以满足我们的 CEP 要求。我偶然发现的不同示例将 spouts 实现为来自消息代理数据库的轮询服务。如何实现基于推送的 spout,即在 spout 内运行的 Thrift 服务器?我应该如何让我的客户知道我的 spout 在哪里运行,以便他们可以在上面推送数据?
cassandra - Storm-cassandra 组合的示例代码
我正在寻找使用storm-cassandra 的示例代码,该代码写入具有复合列的cassandra 列族。尽管它声称此功能在 0.4.0 分支中可用,但没有示例。顺便说一句,我指的项目是这个https://github.com/hmsonline/storm-cassandra
apache-storm - 在远程模式下运行storm.starter.ExclamationTopology 时出现ClassNotFound 错误
我试图在远程模式下运行风暴启动示例。当我使用以下方法将拓扑提交给风暴时:
我从工作日志中遇到了以下错误:有人遇到过这种问题吗?提前致谢!