问题标签 [apache-storm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
164 浏览

hadoop - 工具同步日志文件分发系统

我在多个 Linux 节点上运行分布式作业。每个节点将数据记录到一个文件中。我浪费了很多时间使用 ssh 单独连接和查看每个日志。

是否有工具可以整合跨系统的文件?或其他方式一次查看多个日志?

0 投票
2 回答
338 浏览

php - 实时地理数据流分析

我有以下位置流,我可以通过 Web 界面访问:

它提供车辆当前所在的信息(纬度/经度)。它以 10hz 的速率刷新。

我现在有在 XML 文件中定义的地理围栏,例如一个矩形,它具有以下测量值:

1.)是否有合适的方法/应用程序来分析此数据流,以在线检测车辆是在此地理围栏内部还是外部?

最后,这些信息(进出地理围栏中的车辆)应保存在数据库中,以便其他应用程序可以处理它。

我已阅读有关 Storm 实时计算系统的信息: http: //storm-project.net/

是否可以使用此工具实现这样的地理围栏功能?或者我应该编写一个 c++ 软件来完成这项工作?

到目前为止,我只有 PHP 和 JS 等 Web 技术的经验。我怎么解决这个问题?我怎样才能有效地在线分析这个数据流?

此外,如果我能分析这个流中的复杂事件,那就太好了。

0 投票
2 回答
14431 浏览

oracle - 将数据从 oracle 移动到 HDFS,处理并从 HDFS 移动到 Teradata

我的要求是

  1. 将数据从 Oracle 移动到 HDFS
  2. 处理 HDFS 上的数据
  3. 将处理后的数据移至 Teradata。

还需要每 15 分钟进行一次整个处理。源数据量可能接近 50 GB,处理后的数据也可能相同。

在网上搜索了很多之后,我发现

  1. ORAOOP 将数据从 Oracle 移动到 HDFS(让代码带有 shell 脚本并安排它以所需的时间间隔运行)。
  2. 通过自定义 MapReduce 或 Hive 或 PIG 进行大规模处理。
  3. SQOOP - Teradata 连接器将数据从 HDFS 移动到 Teradata(同样有一个带有代码的 shell 脚本,然后安排它)。

这首先是正确的选择吗?这在所需的时间段内是否可行(请注意,这不是每天的批次)?

我发现的其他选项如下

  1. STORM(用于实时数据处理)。但我找不到开箱即用的 oracle Spout 或 Teradata bolt。
  2. 任何开源 ETL 工具,例如 Talend 或 Pentaho。

请分享您对这些选项以及任何其他可能性的想法。

0 投票
1 回答
196 浏览

apache-storm - 是否有任何可视化工具可以查看风暴集群中的处理链(螺栓和喷嘴)?

语境:

在一个集成测试中看到一个空指针,该测试在本地生成的 stom 集群中运行。增加了日志级别,无法弄清楚到底发生了什么。任何帮助,将不胜感激。

0 投票
3 回答
2248 浏览

maven - 为什么我不能使用该命令从storm-starter 运行示例?

我以前没有使用过 Storm 或 Maven 的经验,我正在开发我的入门项目。当我使用那里给出的命令编译上传到 git 网站上的启动项目时,即:

我可以运行 Exclamation 拓扑类,但是当我使用这个命令时:

我无法运行它。

顺便说一句,我从 apache 网站上的 maven 教程中得到了第二个命令有人能指出我在这里做错了什么吗?

PS:这是错误http://pastebin.com/A1PQbB3r

0 投票
2 回答
1046 浏览

java - 任务挂钩似乎不是 JSON 可序列化的

我有一个工作的 Storm 拓扑,我通过添加一个任务挂钩进行了调整,现在我收到一个错误,说我的配置不是 json 可序列化的。将拓扑提交到 LocalCluster 时发生错误。

我怀疑我的问题是我没有正确配置任务挂钩。在我的拓扑驱动程序类中,就在我提交拓扑之前,我这样做:

其中 config 是 backtype.storm.Config 类型,RubeGoldbergTaskHook 扩展 BaseTaskHook

我是否没有正确设置 config.TOPOLOGY_AUTO_TASK_HOOKS 属性,还是需要将我的 RubeGoldbergTaskHook 类修改为 JSON 可序列化?

0 投票
2 回答
5872 浏览

java - 在简单的聚合风暴拓扑中进行分组

我正在尝试编写一个执行以下操作的拓扑:

  1. 订阅 twitter 提要的 spout(基于关键字)
  2. 一个聚合螺栓,它聚合一个集合中的许多推文(比如 N)并将它们发送到打印机螺栓
  3. 一个简单的螺栓,可以立即将集合打印到控制台。

实际上,我想对集合进行更多处理。

我在本地对其进行了测试,看起来它正在工作。但是,我不确定我是否正确设置了螺栓上的分组,以及在实际风暴集群上部署时是否可以正常工作。如果有人可以帮助查看此拓扑并提出任何错误、更改或改进建议,我将不胜感激。

谢谢。

这就是我的拓扑结构。

聚合螺栓

打印机螺栓

0 投票
4 回答
1254 浏览

push - 推式风暴喷口

我是 Storm 的新手,一直在探索其功能以满足我们的 CEP 要求。我偶然发现的不同示例将 spouts 实现为来自消息代理数据库的轮询服务。如何实现基于推送的 spout,即在 spout 内运行的 Thrift 服务器?我应该如何让我的客户知道我的 spout 在哪里运行,以便他们可以在上面推送数据?

0 投票
1 回答
445 浏览

cassandra - Storm-cassandra 组合的示例代码

我正在寻找使用storm-cassandra 的示例代码,该代码写入具有复合列的cassandra 列族。尽管它声称此功能在 0.4.0 分支中可用,但没有示例。顺便说一句,我指的项目是这个https://github.com/hmsonline/storm-cassandra

0 投票
1 回答
1366 浏览

apache-storm - 在远程模式下运行storm.starter.ExclamationTopology 时出现ClassNotFound 错误

我试图在远程模式下运行风暴启动示例。当我使用以下方法将拓扑提交给风暴时:

我从工作日志中遇到了以下错误:有人遇到过这种问题吗?提前致谢!